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六 四 大 网 站 本 书 讨论 专题 ， 你 不 是 一 个 人 在 战斗 
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k 国内 首次 全 面 披露 网 络 奉 储 深层 技术 细节 C 
k 特 立 独行 的 行文 风格 ， 一 针 见 血 的 讼 普 技术 
k 网 络 存储 和 存储 网 络 ， 谈 医 间 难 吉 灰 飞 烟 天 
大 全 面 解密 SAN、NAS 系 统 AA 
大 涉及 雁 多 底层 细节 ， 中 文 资料 独家 提供 

k 提供 最 佳 操作 实 路 ， 严 禁 纸上谈兵 
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精 解 与 最 佳 实践 
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清华 大 学 出 版 社 
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内 容 简 介 


四 络 存 储 ， 是 近 二 十 年 来 的 新 兴 行 业 。 从 纸 带 到 硬盘 再 到 大 型 磁盘 阵列 ， 存 储 系 统 经 历 了 从 简单 到 复 
从 单 块 硬盘 到 存储 区 域 网 络 (SAN)。 网 络 存 储 行业 目前 已 经 是 一 个 步 入 正轨 的 IT 行业 了 。 
风 络 存储 是 一 个 涉及 计算 机 硬件 以 及 网 络 协议 /技术 、 操 作 系统 以 及 专业 软件 等 各 方面 综合 知识 的 领 
目前 国内 阐述 网 络 存储 的 书籍 少 之 久 少 ， 大 部 分 是 国外 作品 ， 对 存储 系统 底层 细节 的 描述 不 够 深入 ， 
加 之 术语 太 多 ， 初学 者 很 难 真正 理解 网 络 存储 的 精 血 。 

本 书 以 特 立 独行 的 行文 风格 向 读者 阐述 了 整个 网 络 存储 系统 。 从 硬盘 到 应 用 程序 ， 这 条 路 径 上 的 每 个 
节点 ， 作 者 都 进行 了 阐述 。 书 中 内 容 涉 及 : 计算 机 IO 基本 概念 ， 硬 盘 物 理 结构 、 禹 片 数 据 结 构 和 工作 原 
理 ， 七 种 常见 RAID 原理 详 析 以 及 性 能 细节 对 比 ， 虚 拟 磁盘 、 卷 和 文件 系统 原理 ， 磁 盘 阵 列 系统 ，OSI 模 
型 ，FC 协议 ， 众 多 磁盘 阵列 架构 ， SAN 和 NAS 系统 ，TCP 和 以 太 网 以 及 IP SAN， 协 议 融 合理 论 ， 存 储 
虚拟 化 ， 存 储 及 服务 器 群集 ， 数 据 保护 和 备份 技术 ， 快 照 技 术 ， 数 据 容 灾 技术 。 

本 书 用 独特 的 写作 方式 通俗 地 诠释 了 这 些 临 涩 、 枯 燥 的 难点 技术 并 提供 了 许多 前 所 未 有 的 操作 实践 和 
本 书 作 者 长 期 从 事 存储 工作 的 一 些 经 验 点 滴 。 

本 书 适合 初 入 存储 行业 的 技术 ei 售 前 工程 师 和 销售 人 员 阅 读 ， 同 时 适合 资深 存储 行业 人 士 用 以 
提高 技能 ， 另 外 ， 网 络 工程 师 、 网 管 、 服 务 器 软 硬 件 开发 与 销售 人 员 、Web 开发 者 、 数 据 库 开发 者 以 及 相 
关 专 业 师 生 等 也 非常 适合 MEKE. 
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各 位 朋友 ， 大 家 好 。 感 谢 您 购买 并 阅读 此 书 。 我 叫 张 冬 ， 网 名 冬瓜 头 ， 山 东 人 。 承 蒙 各 位 朋友 的 大 力 
帮助 ， 让 我 写成 了 这 本 书 。 
创作 背景 


写 这 本 书 的 初 吏 ， 就 是 为 了 让 广大 系统 工程 师 、IT 工作 者 对 网 络 存储 系统 能 有 一 个 深入 的 了 解 市面 
上 已 经 有 一 些 讲述 网 络 存储 系统 的 书籍 ， 但 是 我 发 现 对 于 初学 者 来 说 ,这些 书籍 大 多 太 过 抽象 隐 涩 ， 语 计 
不 够 通俗 易 懂 ， 而 对 于 专业 的 网 络 存储 工程 师 来 说 , 这 些 书 又 不 是 必 读 之 物 。 所 以 我 就 产生 了 写 一 本 任何 
IT 人 都 能 看 全 并 且 津 津 乐 道 的 关于 网 络 存储 方面 的 书 的 想法 。 

创作 过 程 

然而 ， 当 我 真正 新 建 一 个 文档 准备 往 里 圾 字 的 时 候 , 却 发 现 ， 写 作 不 是 那么 容易 的 ， 尤 其 是 写 一 本 让 
人 人 者 能 看 懂 的 书 。 本 书 开 稿 日 期 我 记得 是 在 2006 年 9 月 。 开 始 的 时 候 , 在 3 个 月 时 间 内 就 已 经 写 完了 
大 体 的 框架 。 然 而 ,这 个 框架 内 容 应 该 说 是 想到 什么 就 写 什么 ， 也 就 是 把 我 脑海 里 所 有 知道 的 东西 都 写 出 
来 ， 非常 凌乱 ， 更 别 说 语言 措辞 了 。 然 而 ， 爆 发 的 快 ， 炮 灭 的 也 快 。 随 后 的 几 个 月 内 ， 我 再 也 找 不 到 灵感 
应 该 写 什么 ， 怎 么 写 了 。 这 完全 是 由 于 本 人 知识 匮乏 所 导致 的 。 

第 一 阶段 写作 的 过 程 中 ， 随 着 写作 进行 ， 遇 到 的 理论 问题 也 越 来 越 多 。 我 晚上 进行 写作 和 思考 遇 到 的 
问题 , 白天 就 上 网 查阅 这 些 问题 的 理论 根基 , 对 于 一 些 没有 答案 的 问题 ， 我 就 自己 思考 ,琢磨 答案 求助 
周围 和 网 络 上 的 高 手 们 。 

框架 写成 后 ， 就 是 温 浊 的 充实 之 路 。 每 天 晚上 ， 有 了 灵感 ， 就 修改 一 下 ， 续 写 一 下 ， 没 有 灵感 ， MA 
目 欣赏 音乐。 

就 这 样 ， 时 间 一 直 走 到 了 2007 年 6 月 。 我 在 网 络 上 遇 到 了 清华 大 学 出 版 社 编辑 麻 大 成 。， 这 位 编辑 的 
随和 与 热心 ， 深 深 地 打动 了 我 。 和 他 交谈 时 ,我 感 党 他 是 在 帮助 我 写 书 ， 而 不 是 我 在 求 他 为 我 出 书 。 从 此 ， 
我 坚定 了 要 把 这 本 书写 完 的 决心 我 重新 打开 未 完成 的 文档 ， 业余 时 间 全 部 投入 到 写作 中 。 就 这 样 ， 又 写 
了 8 个 月 。 这 8 个 月 中 ,大 部 分 时 间 是 在 整理 写 完 的 章节 , 包括 修改 技术 错误 以 及 语言 方面 的 不 当 。 修 改 
比 新 写 要 困难 许多 ， 有 时 候 遇 到 一 些 不 合适 的 地 方 ， 甚 至 需要 整 章 都 要 重新 构思 并 写作 

这 本 书 的 写作 可 以 说 是 跨越 了 三 地 ,先后 为 北京 (2006 年 9 月 开 稿 于 北京 西 二 旗 燕 尚 园 )、 青岛 . 大 连 ， 
最 后 于 2008 年 2 月 在 大 连 收 稿 , 接 下 来 就 是 漫长 的 修订 、 完 善 过 程 。 
读者 对 象 

本 书 适 合 于 已 经 或 者 打算 进入 存储 领域 的 IT 工程 师 阅读 ， 同 时 也 适合 所 有 IT 工作 者 和 具有 一 定 计算 
机 系统 知识 和 网 络 知识 的 读者 。 本 书 既 适合 初 入 存储 行业 的 技术 工程 师 、 售 前 工程 师 和 销售 人 员 阅 读 , 又 
适合 资深 存储 行业 人 士 以 便 提 出 宝贵 意见 和 建议 。 


大 话 存储 


网 络 存 储 系 统 原理 精 解 与 最 佳 实践 


内 容 提要 

$9819 盘古 开 天 一 一 存储 系统 的 前 世 今 生 

介绍 存储 的 历史 和 现状 ， 各 种 需要 掌握 的 主流 技术 。 

第 2 章 IO 大 法 一 一 走 进 计算 机 IO 世界 

本 章 介绍 计算 机 系统 是 如 何 进行 IO 动作 的 。 阐 释 了 CPU、 内 存 、 磁 盘 三 者 是 怎么 联系 起 来 并 且 从 磁 
盘 读 写 数据 的 。 给 出 计算 机 总 线 的 概念 ，CPU、 内 存 和 磁盘 三 者 都 在 总 线 上 ， 通 过 协议 来 互相 交换 数据 。 
这 一 章 是 作为 读者 继续 理解 存储 系统 的 基础 。 

第 3 章 磁盘 大 挪移 一 一 磁盘 原理 和 技术 详解 

本 章 介绍 磁盘 ， 包 括 磁盘 的 构造 、 原 理 、 如 何 寻 址 、 外 部 接口 、 高 级 磁盘 技术 。 其 中 用 了 众多 的 类 比 ， 
通俗 讲述 磁盘 从 存储 数据 、 传 输 数据 的 详细 过 程 。 

第 4 章 七 星 北斗 一 一 大 话 /详解 七 种 RAID 

本 章 是 读者 真正 进入 存储 子 系统 的 入 口 ， 讲 述 了 RAID 技术 。 前 面部 分 使 读者 感性 认识 了 RAID 技术 , 
后 面部 分 在 有 了 轮廓 之 后 ， 从 纯 技术 角度 更 深入 地 解释 了 RAID 技术 的 细节 。 

985 € 降 龙 传说 一 一 RAID、 虚 拟 磁盘 、 卷 和 文件 系统 实战 

本 章 前 面部 分 描述 了 在 RAID 技术 基础 上 的 一 些 更 加 高 级 的 存储 技术 ， 包 括 RAID 控制 器 、RAID 卡 、 
虚拟 磁盘 ， 虚 拟 卷 、 卷 管理 。 每 个 部 分 又 分 成 多 个 细节 部 分 来 阐释 。 后 面部 分 则 描述 了 存储 系统 的 一 个 重 
要 层次 ， 即 文件 系统 。 用 了 一 个 仓库 模型 来 阐释 了 文件 系统 的 作用 原理 。 

第 6 章 阵列 之 行 一 一 大 话 磁盘 阵列 

本 章 是 承前启后 的 一 章 ， 描 述 了 磁盘 阵列 的 发 展 ， 从 最 简单 的 JBOD 模式 的 磁盘 阵列 开始 ， 一 直到 高 
端 复杂 的 带 有 RAID 控制 器 的 大 型 磁盘 阵列 。 最 后 达到 本 章 的 高 潮 ， 即 随 着 存储 系统 向 主机 外 部 扩展 ， 其 
最 终 形态 是 网 络 存储 系统 ， 引 出 了 本 书后 面部 分 要 阐释 的 主体 一 一 存储 区 域 网 络 (SAN) 

第 7 章 熟 污 宝典 一 一 系统 与 系统 之 间 的 语言 OSI 

既然 存储 系统 已 经 达到 了 网 络 化 的 程度 ， 那 么 非常 有 必要 向 读者 阐述 一 下 网 络 OSI 模型 。 本 章 用 了 各 
种 比喻 ， 向 读者 展现 了 OSI 模型 中 的 7 个 层次 。 

第 8 章 勇 破 难关 一 一 Fibre Channel 协议 详解 

HAT Fibre Channel ,一 种 广泛 用 于 后 端 存储 网 络 的 网 络 技术 。 用 以 太 网 和 Fibre Channel 网 
络 做 了 比较 ， 并 且 虚 拟 了 一 个 钻研 存储 技术 的 人 物 角色 来 完成 这 一 章 。 这 个 角色 根据 OSI 模型 和 以 太 网 的 
实现 思想 ， 创 造 了 Fibre Channel 各 个 层次 的 协议 系统 ， 并 以 其 得 天 独 厚 的 优势 成 为 了 最 适合 存储 网 络 适 
用 的 协议 。 

第 9 € 天 翻 地 覆 一 一 FC 协议 的 巨大 力量 

本 章 写 了 Fibre Channel 协议 用 于 存储 网 络 之 后 ， 对 传统 的 基于 SCSI 的 磁盘 阵列 架构 带 来 的 天 翻 地 
覆 的 变化 。Fabric 协议 将 传统 的 磁盘 阵列 的 前 端 和 后 端 协议 统统 蔡 代 了 ， 实 现 了 存储 系统 的 彻 彻 底 底 的 网 
络 化 改造 。 

第 10 章 三 足见 立 一 -DAS、SAN 和 NAS 

本 章 阐 释 了 现今 存储 领域 的 三 大 主要 架构 ， 即 SAN、NAS、DAS。 讲 述 了 NAS 的 由 来 。Fabric 将 存 
储 系统 彻底 网 络 化 ， 而 各 种 五 花 八 门 的 协议 又 使 文件 系统 也 被 网 络 化 了 。 当 今世 界 ， 任 何 东西 都 和 网 络 扯 
上 了 关系 ， 甚 至 洗衣 机 “， 冰 箱 都 做 上 了 以 太 网 接口 。 没 有 什么 不 可 以 网 络 化 的 ， 只 要 有 通信 的 需求 ， 就 可 
以 网 络 化 。 
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第 11 章 大 师 之 作 一 一 大 话 以 太 网 和 TCP/IP 协议 

本 章 是 对 下 一 章 将 要 阐释 的 IP SAN 所 做 的 一 个 铺垫 。 要 理解 新 兴 的 IP SAN , 必须 对 TCP/IP 协议 有 
一 定理 解 。 本 章 向 读者 展现 了 TCP/IP 协议 的 设计 思想 和 实现 方式 ， 对 以 太 网 也 做 了 说 明 。 

第 12 章 异军突起 一 一 存储 网 络 的 新 军 IPSAN 

本 章 曾 释 了 IP SAN 这 个 存储 网 络 领域 的 新 军 。Fabric 可 以 用 于 存储 网 络 的 协议 ，IP 也 可 以 。 它 们 都 
是 用 于 网 络 互联 的 协议 ，IP 要 在 存储 网 络 分 一 杯 姜 ， 且 看 IP 有 何 过 人 之 处 可 以 让 其 和 Fabric 协议 一 决 高 
下 呢 ? 本 章 将 给 出 答案 。 

第 13 € 握手 言 和 一 一 IP 与 FC 融合 的 结果 

夫 天 下 之 势 ,分 久 必 合 EAS. 网络 存储 领域 也 遵循 这 个 规则 。IP san 和 Fabric san 激烈 的 竞争 ， 
表面 上 使 其 二 者 互相 排斥 远离 ， 但 还 是 那 句 话 : “本 是 同根 生 ， 相 前 何 太 急 ? ”。 没 错 ， 二 者 各 有 长 处 ， 
也 各 有 短处 ， 为 何 二 者 不 能 合作 ， 互 相 取 长 补 短 ， 形 成 新 的 协议 体系 呢 ? 完全 可 以 。 本 章 就 描述 了 这 样 两 
种 新 的 协议 体系 , IP 和 Fabirc 协议 互相 融合 。 作 者 在 本 章 引入 了 一 个 新 概念 ， 即 “通信 协议 间 的 相互 作 
用 ”， 并 对 这 个 概念 做 了 深刻 的 比喻 和 透彻 的 阐释 。 

本 章 是 本 书 的 高 潮 ， 纵 观 本 书 ， 从 一 开始 向 读者 介绍 计算 机 总 线 、 磁 盘 ， 到 后 来 逐渐 将 磁盘 向 外 扩充 ， 
形成 盘 阵 ， 然 后 将 盘 阵 与 主机 的 连接 网 络 化 ， 然 后 将 盘 阵 自身 的 各 个 模块 彻底 网 络 化 。 网 络 化 之 后 ， 就 是 
各 种 网 络 协议 用 于 这 个 网 络 ， 再 后 来 ， 各 个 协议 之 间 相 互 融 合 ， 达 到 最 高 境界 。 

第 14 章 变幻 莫 测 一 一 虚拟 化 

虚拟 化 这 个 词 ， 在 计算 机 系统 中 无 处 不 在 。 本 章 从 物理 层 一 直到 应 用 层 ， 向 读者 阐释 了 虚拟 化 在 计算 
机 系统 各 个 层次 中 的 作用 原理 。 

9815 2 众志成城 一 一 存储 集群 

随 着 小 型 机 和 PC 的 成 本 不 断 降低 ,以 前 需要 大 型 机 方 能 进行 的 运算 ， 现 在 也 可 以 运用 小 型 机 甚至 PC 
组 成 的 集群 系统 来 进行 。 本 章 向 读者 阐述 三 种 集群 (HA 集群 、LB 集群 、HPC 集群 ) 的 概念 和 作用 原理 ， 以 
及 集群 系统 中 的 存储 子 系统 的 一 些 概念 和 特点 ， 包 括 集群 文件 系统 等 知识 。 

第 16 章 未雨绸缪 一 一 数据 保护 和 备份 技术 

本 章 讲述 了 与 存储 密切 相关 的 一 个 领域 ， 就 是 数据 保护 和 备份 领域 。 面 对 庞大 的 数据 ， 如 何 保证 其 安 
全 性 ? 在 这 一 章 ， 将 向 读者 展现 数据 备份 的 方方面面 。 

第 17 章 “愚公移山 一 一 存储 容 灾 技术 

本 章 描述 了 容 灾 系 统 的 各 个 组 成 要 件 ， 从 一 个 通俗 的 例子 ， 一 步 一 步 带领 读者 认识 到 容 灾 系统 的 精髓 
思想 。 

附录 ”五 百年 后 

最 近 ， 固 态 硬 盘 和 芯片 存储 技术 炒 得 火热 。 我 本 人 也 相信 ,不 超过 10 年 或 者 更 短 时 间 ， 机 械 硬盘 将 
彻底 被 逐 出 市 场 。 故 障 率 高 、 费 电量 大 、 体 积 庞大 、 速 度 已 经 达到 技术 极限 等 这 些 缺 点 似乎 已 经 决定 了 机 
械 硬 盘 的 命运 。 而 存储 介质 被 替换 成 芯片 之 后 ， 整 个 系统 的 架构 就 可 能 发 生 革 命 性 的 改变 。 本 章 中 ， 作 者 
对 未 来 的 系统 架构 做 了 自己 的 预测 。 


阅读 指南 
读者 根据 自己 的 理解 程度 和 水 平 ,可 以 略 过 一 些 认 为 已 经 掌握 的 内 容 . 但 是 推荐 读者 顺序 阅读 每 一 章 ， 
以 防 由 于 缺乏 连贯 性 导致 的 对 后 续 章 节 的 某 些 细节 造成 的 误解 。 
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第 一 次 接触 张 冬 ， 是 在 2007 年 8 月 ， 张 冬 QQ 加 我 ， 说 有 本 书 问 我 感 不 感 兴趣 。 所 
有 编辑 可 能 都 对 送 上 门 的 没有 经 手 策划 的 书 主观 的 轻视 ， 况 且 是 这 样 一 个 “ 非 主流 ”的 选 
题 。 经 过 长 时 间 的 沟通 ， 我 发 现 这 是 个 真诚 且 严 谨 的 家 伙 ， 同 时 在 论坛 中 我 发 现 张 冬 的 作 
品 负面 评价 很 少 ， 而 且 人 和 气 很 高 。 记 得 无 论 我 什么 时 候 上 线 ， 他 总 在 ， 这 又 是 一 个 十 分 努 
力 的 家 伙 。 另 外 ， 我 了 解 到 ， 张 冬 在 IT 行业 算是 半路 出 家 ， 他 是 化 学 专业 出 身 ， 但 就 是 这 
样 一 个 跨行 业 的 人 ， 却 能 用 清晰 的 文笔 来 描述 网 络 存储 这 样 相对 星 涩 的 技术 ! 

一 个 真诚 、 严 谨 且 努力 的 技术 高 手 …… 这 样 的 人 的 作品 怎么 会 不 好 呢 ? 

一 个 脱离 技术 多 年 的 策划 编辑 赁 什么 为 一 本 技术 性 很 强 的 IT 图 书 作 序 ? 汗颜 …… 我 以 
前 也 研究 过 “存储 ”， 仅 仅 局 限于 硬盘 结构 ，10 年 前 写 的 《实战 DEBUG》、《 汇 编 语言 
超 浓缩 教程 》 系 列 文章 涉及 到 对 硬盘 的 分 析 和 操作 ， 这 些 文章 现在 在 网 上 还 能 找到 ， 也 经 
常 有 朋友 或 作者 跟 我 聊 起 来 ， 得 意 洋洋 ……' 曾 经 立志 成 为 存储 达 人 ， 然 而 天 赋 有 限 ， 未 遂 。 

张 冬 的 作品 从 收 到 稿件 阅读 第 一 章 开始 ， 我 就 感觉 这 一 定 是 本 好 书 。 是 当年 梦 壮 以 求 
的 资源 。 难 得 的 是 ， 这 本 书 的 行文 异乎 寻常 的 流畅 ， 以 臻 我 曾经 问 过 张 冬 : “小 样 儿 ,你 
是 学 中 文 的 吧 ? ”一 本 专业 性 极 强 的 图 书 ， 最 关键 的 就 是 要 把 问题 讲 清楚 。 

张 冬 用 一 种 “另类 ”的 方式 对 一 些 隆 涩 的 概念 和 理论 进行 了 重新 包装 。 充 斥 着 “庸俗 
的 ”解释 与 描述 ， 比 如 : 数据 包 在 网 络 中 的 流动 过 程 一 一 是 对 照 快递 公司 的 业务 流程 比 对 
讲解 的 ， 容 易 理解 而 且 印 象 深刻 。 

另外 ， 这 本 书 提 供 了 一 些 培训 级 别 的 操作 。 大 家 知道 类 似 网 络 存储 这 种 规模 的 部 分 操 
作 ， 很 少 能 在 家 里 用 PC 来 进行 实际 操作 (当然 模拟 练习 还 是 可 以 的 ) , 张 冬 有 条 件 在 这 样 的 
专业 操作 环境 进行 操作 步骤 的 整理 ， 这 些 细致 的 重量 级 操作 也 是 本 书 另 外 的 价值 所 在 。 

信息 存储 是 这 个 世界 的 未 来 ， 将 来 我 们 的 一 举 一 动 的 背后 都 会 伴随 大 量 的 信息 存储 行 
为 ， 存 储 已 经 成 为 了 一 个 行业 ， 任 何 动作 都 离 不 开 它 。 现 在 ， 网 络 工程 师 ， 网 管 ，Web F 
发 者 ， 数 据 库 开 发 者 ， 软 件 开发 (特别 是 网 络 应 用 ) 者 都 必须 掌握 网 络 存储 的 一 些 细节 ， 可 以 
说 基本 上 所 有 IT 技术 从 业者 都 需要 或 多 或 少 地 了 解 存储 。 这 一 定 会 是 个 广大 的 市 场 ， 或 者 
说 已 经 是 广大 市 场 了 。 

这 样 的 一 本 书 ， 我 希望 并 且 相 信 会 给 大 家 的 学 习 带 来 帮助 ， 也 相信 这 样 一 本 特 立 独行 
的 好 书 能 够 让 大 家 很 多 年 以 后 还 能 回忆 起 来 并 津津 乐 道 地 向 朋友 推荐 。 
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数据 存储 是 人 类 千 百 年 来 都 在 应 用 并 且 探索 的 主题 。 在 原始 社会 ， 人 类 用 树枝 和 
石头 来 记录 数据 。 后 来 ， 人 类 创造 了 铁器 ， 用 铁器 在 石头 上 刻画 一 些 象形 文字 来 记录 
数据 。 而 此 时 ， 语 言 还 没有 形成 ， 人 们 记录 的 东西 只 有 自己 才 可 以 看 懂 。 

随 着 人 类 相互 之 间 交 流 的 愿望 越 来 越 近 切 ， 逐 渐 形 成 了 通用 的 象形 文字 。 有 了 文 
字 之 后 ， 人 们 对 每 个 文字 加 上 了 上 声音 的 表达 ， 就 形成 了 语言 ， 也 就 是 将 一 种 形式 的 信 
息 ， 转 换 成 另 一 种 形式 的 信息 。 人 们 用 文字 作为 交流 工具 ， 将 自己 大 脑 产 生 的 信息 ， 
通过 这 种 方式 传递 给 其 他 人 。 这 和 网 络 通信 的 模型 是 一 样 的 ， 计 算 机 将 数据 利用 
TCP/IP 协议 ， 先 通过 网 卡 编码 ， 再 在 线 绕 上 传输 ， 最 终 到 达 目 的 地 。 人 类 将 大 脑 中 的 
数据 ， 变 成 语言 编码 ， 然 后 通过 嗓子 的 振动 ， 通 过 空气 这 个 大 广播 网 ， 传 递 给 网 内 的 
每 个 人 。 

后 来 ， 人 们 将 文字 刻 在 竹 片 上 保存 。 再 后 来 ， 蔡 伦 发 明了 造纸 技术 ， 使 得 人 们 可 
以 将 信息 写 到 纸 上 ， 纸 张 探 起 来 就 形成 了 书本 。 后 来 ， 毕 异 用 泥 活字 革新 了 印刷 术 ， 
开始 了 书本 的 印刷 。 再 后 来 ， 激 光 打 印 取代 了 活字 板 。 再 后 来 ， 纸 带 、 软 盘 、 硬 盘 、 
光盘 等 方式 出 现 了 。 再 往 后 ， 就 需要 广大 科学 工作 者 去 努力 发 明 新 的 存储 技术 了 。 


大 话 存储 
网 络 存储 系统 原理 精 解 与 最 佳 实践 


11 存储 历史 


存储 在 这 里 的 含义 为 信息 记录 ， 是 伴随 人 类 活动 出 现 的 技术 。 
1. 竹简 和 纸张 


竹简 是 中 国 古 代 使 用 的 记录 文字 的 工具 ， 后 来 被 纸张 所 

2. 选 数 管 

选 数 管 是 20 世纪 中 期 出 现 的 电子 存储 装置 ， 是 一 种 由 直观 存储 转 为 机 器 存储 的 装置 。 
其 实在 19 世纪 出 现 的 穿孔 纸 带 存储 就 是 一 种 由 直观 存储 转向 机 器 存储 的 产物 ， 它 对 19 世 
纪 西 方 某 国 的 人 口 普查 起 到 了 关键 的 加 速 作 用 。 

选 数 管 的 容量 从 256 一 4096 比特 不 等 ， 其 中 4096 比特 的 选 数 管 有 10 英寸 长 ，3 英寸 


宽 ， 最 初 是 1946 年 开发 的 ， 因 为 成 本 太 高 ， 并 没有 获得 广泛 使 用 。 图 1.2 是 容量 为 1024 
比特 的 选 数 管 。 


取代 ， 如 图 1.1 所 示 。 


Bis na Bio seg 
3. 穿孔 卡 
穿孔 卡片 用 于 输入 数据 和 程序 ， 直 到 20 世纪 70 年 代 中 期 仍 有 广泛 应 用 。 图 1.3 和 
图 1.4 是 一 


条 Fortran 程序 表达 式 Z(1) = Y + W(1) 所 对 应 的 穿孔 卡 和 穿孔 卡片 阅读 器 。 


B3 245 
4. 穿孔 纸 带 


穿孔 纸 带 用 来 输入 数据 ， 输 出 同样 也 是 在 穿孔 纸 带 上 。 它 的 每 


图 1.4 穿孔 卡片 阅读 器 


行 代表 一 个 字符 ， 如 
图 1.5 所 示 。 
5. 磁带 
磁带 是 从 1951 年 起 被 作为 数据 存储 设备 使 


的 。 磁带 在 当时 被 称 为 UNISERVO。 图 1.6 
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所 示 的 最 早 的 磁带 机 可 以 每 秒 钟 传输 7200 个 字符 。 如 图 1.6 所 示 这 套 磁带 长 达 365 X. 


Bis anat 圆 1.6_ 磁 带 及 磁带 机 
从 20 世纪 70 年 代 后 期 到 20 世纪 80 年 代 出 现 了 小 型 的 盒 式 磁带 ， 长 度 为 90 分 钟 的 
磁带 每 一 面 可 以 记录 大 约 660KB 的 数据 ， 如 图 1.7 所 示 。 


1.7_ 小 型 盒 式 磁带 


6. 磁 鼓 存储 器 

磁 鼓 存储 器 最 初 于 1932 年 在 奥地利 被 创造 出 来 ， 在 20 世纪 五 六 十 年 代 被 广泛 使 用 ， 
通常 作为 内 存 ， 容 量 大 约 10KB， 如 图 1.8 所 示 。 

7. 硬盘 驱动 器 

第 一 款 硬盘 驱动 器 是 IBM Model 350 Disk File， 如 图 1.9 所 示 ， 于 1956 年 制造 ， 其 中 
4$ T 503K 24 英寸 盘 片 ， 而 总 容量 不 到 5MB。 


Bs eset 图 19_ 早 期 的 硬盘 驱动 器 
首 个 容量 突破 1GB 的 硬盘 是 IBM 在 1980 年 制造 的 1BM 3380, Au 1.10 所 示 ， 总 容 
量 为 2.52GB， 重 约 250 千克 。 
8. 软盘 
软盘 由 IBM 在 1971 年 引入 ， 从 20 世纪 70 年 代 中 期 到 20 世纪 90 年 代 末期 被 广泛 使 
H, 最 初 为 8 英寸 盘 , 之 后 有 了 5.25 英寸 和 3.5 英寸 盘 。1971 年 最 早 的 软盘 容量 为 79.7KB， 
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并 且 是 只 读 的 ， 一 年 后 有 了 可 读 写 的 版 本 。 图 1.11 所 示 就 是 一 张 软盘 和 软盘 驱动 器 。 软 盘 
的 最 大 容量 为 200MB 左右 ， 叫 做 ZIP 盘 ， 目 前 已 经 被 淘汰 。 


E10 IBM 3380 硬盘 驱动 器 Bis 软盘 
9. 光盘 


早先 的 光盘 主要 用 于 电影 行业 ， 第 一 款 光盘 于 1987 年 进入 市 场 ， 直 径 为 30 EX, 
- 面 可 以 记录 60 分 钟 的 音频 或 视频 。 如 今 ， 光 盘 技 术 已 经 突 飞 狐 进 。 存 储 密度 不 断 提 高 ， 
已 经 出 现 了 CD-ROM, DVD, D9, D18, WHR. KI 1.12 所 示 为 一 张 光盘 。 


图 1.12 光盘 

10. Flash 芯片 和 卡 式 存储 

随 着 集成 电路 技术 的 飞速 发 展 ，20 世纪 后 半 叶 固态 硅 芯 片 出 现 了 ， 其 代表 有 专用 数字 
电路 芯片 、 通 用 CPU 芯片 、RAM 芯片 、Flash 芯片 等 。 其 中 Flash 芯片 ,就 是 用 于 永久 存储 
数据 的 芯片 ， 如 图 1.13 所 示 。 可 以 将 Flash 芯片 用 USB 接口 接 入 主机 总 线 网 络 ， 这 种 集成 
USB 接口 的 小 型 便携 存储 设备 就 是 U 盘 ， 或 者 说 是 闪存 ， 如 图 1.14 所 示 。 目 前 一 块 小 小 的 
Flash 芯片 最 高 可 以 存储 32GB 甚至 更 高 的 数据 。 

存储 卡其 实 是 另 一 种 形式 的 Flash 芯片 集成 产品 ， 如 图 1.15 所 示 。 


P 
图 1.13 Flash 芯片 B4 UE 图 1.15 存储 卡 


11. 硬盘 阵列 
随 着 人 类 进入 21 世纪 ， 网 络 日 益 发 达 ， 世 界 日 益 变 小 ， 人 类 通过 计算 机 来 实现 自己 原 
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本 做 不 到 的 想法 ， 信 息 爆 炸 导致 数据 更 是 成 倍 地 爆炸 。 于 是 ， 硬 盘 的 容量 也 不 断 “ 爆 炸 ”， 
SATA 硬盘 目前 已 经 可 以 在 一 个 盘 体 内 实现 1TB 的 容量 。 同 时 硬盘 的 单 碟 容量 也 在 不 断 增 
加 ，320GB 单 碟 容 量 已 经 实现 。 然 而 ， 单 块 磁盘 目前 所 能 提供 的 存储 容量 和 速度 已 经 远 远 
无 法 满足 需求 ， 所 以 磁盘 阵列 就 应 运 而 生 ， 如 图 1.16 所 示 。 有 具体 细节 将 在 本 书后 面 章节 中 


Bl: 磁盘 阵列 
12. 大 型 网 络 化 硬盘 阵列 


随 着 磁盘 阵列 技术 的 发 展 和 IT 系统 需求 的 不 断 升级 ， 大 型 网 络 化 磁盘 阵列 出 现 了 ， 如 
图 1.17 所 示 。 这 也 是 本 书 将 要 描述 的 重点 内 容 。 


HMC 


— guten Aui 
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1.17 大 型 网 络 化 磁盘 阵列 


1.2 信息、 数据 和 数据 存储 
当今 信息 化 时 代 ， 信 息 就 是 利润 ， 数 据 就 是 企业 的 命根 子 。 


1.2.1 信息 
你 能 肯定 你 所 触摸 到 的 、 所 看 见 的 ， 都 是 实 实在 在 的 所 谓 “ 物 质 ” 么 ? 不 一 定 。 因 为 


[51 


你 的 眼睛 所 感知 的 ， 只 不 过 是 光线 ， 光 触发 了 你 的 视网膜 细胞 ， 产 生 一 系列 的 生化 反应 ， 
蛋白 质 相互 作用 ， 神 经 网 络 传导 ， 直 到 你 的 大 脑 中 枢 ， 产 生 一 系列 的 脉冲 ， 一 系列 的 逻辑 ， 
在 你 大 脑 中 产生 一 个 刺激 。 这 一 系列 的 脉冲 刺激 ， 就 是 信息 ， 就 是 逻辑 ， 因 为 这 样 ， 所 以 
了 样 。 如 果 人 为 制造 出 和 现实 世界 相同 的 光线 环境 来 刺激 你 的 眼睛 ， 如 果 丝 毫 不 差 ， 那 么 
你 同样 会 认为 你 所 处 的 是 现实 世界 ， 然 而 ， 却 不 是 。 


一 个 球体 ， 你 看 见 它 是 圆 的 ， 那 是 因为 它 在 你 大 脑 中 产生 的 刺激 ， 你 认为 它 是 

的 ， 而 且 可 以 在 平面 上 平滑 滚动 ， 这 一 系列 的 性 质 ， 其 实 也 是 在 你 大 脑 中 产 

x 生 的 ， 是 你 认为 它 会 平滑 滚动 ， 而 你 不 能 证 明 客观 情况 下 它 一 定 是 平滑 滚动 。 
而 如 果 把 这 个 球体 拿 到 特殊 环境 下 ， 你 可 能 会 “看 ”到 ， 这 个 东西 是 个 正方 体 ， 
或 者 是 个 无 规则 形状 的 东西 ; 又 或 许 这 个 “物体 ”根本 不 存在 。 


1. 信息 的 本 质 

通过 上 面 的 论述 ， 我 们 暂且 不 说 是 否 有 物质 存在 ， 不 管 是 还 是 不 是 ， 都 能 初步 认识 到 ， 
所 谓 “ 物 质 ” 也 好 ，“ 非 物质 ”也 好 ， 最 后 都 是 通过 信息 来 表现 。 惟 一 可 以 确定 的 是 : 信 
息 是 客观 存在 。 可 以 说 ， 世 界 在 生物 眼中 就 是 信息 ， 世 界 通过 信息 来 反映 ， 脱 离 了 信息 ， 
“世界 ”什么 都 不 是 。 


祛 HF 加 说 到 这 里 ， 我 们 完全 迷茫 了 。 我 们 所 看 到 的 东西 ， 到 底 是 世界 的 刺激 ， 还 是 一 
| 场 虚 幻 的 刺激 ?就 像 玩 3D 仿真 游戏 一 样 ， 你 所 看 到 的 ， 也 许 只 是 一 场 虚幻 的 
-二 刺激， 而 不 是 真实 世界 的 刺激 。 每 当 想到 这 里 ， 我 不 自主 地 产生 一 种 渺小 感 ， 
一 种 失落 感 ， 感 觉 生命 已 经 失去 它 所 存在 的 意义 。 每 当 看 见 我 的 身体 ， 我 的 手 
脚 ， 它 可 能 只 是 虚幻 的 ， 它 只 是 在 刺激 你 的 大 脑 而 已 ， 你 审 一 刀 ， 会 产生 一 个 
疼痛 的 刺激 ， 就 这 么 简单 的 逻辑 。 


站 “不 识 庐山 真面目 ， 只 缘 身 在 此 山中 ”。 如 果 我 们 按照 程序 逻辑 ， 制 造 一 个 虚 
拟 世 界 ， 饿 了 找 饭 吃 ， 困 了 打 时 睡 ， 完 全 遵循 我 们 现在 世界 的 逻辑 ， 从 这 种 层 
“二 面 上 来 看 ， 制 造 出 人 工 智 能 ， 是 完全 可 能 的 。 我 们 创造 了 计算 机 ， 创 造 了 能 让 

计算 机 做 出 行为 的 程序 ， 人 类 赋予 程序 的 功能 ， 也 许 随 着 环境 的 变化 ， 有 一 天 
也 不 再 适合 它们 。 所 以 它们 迫切 需要 进化 ， 它 们 的 逻辑 电路 ， 也 可 以 进化 ， 某 
些 代 码 被 不 经 意 自 行 改变 ， 或 者 某 些 电路 失效 ， 或 者 短路 之 类 的 ， 会 产生 一 些 
奇特 的 逻辑 ， 不 断 进化 。 当 一 个 机 器 人 机 械 老化 的 时 候 ， 按 照 程序 ， 制 造 出 新 
的 机 器 ， 将 自己 的 逻辑 电路 复制 到 新 的 机 器 上 ， 延 续 “ 生 命 ”.….… 


2. 计算 机 如 何 看 待 自 身 
对 于 计算 机 来 说 ， 它 们 所 看 到 的 “世界 ”是 什么 样子 呢 ? 设想 一 下 ， 如 果 我 是 一 台 计 
算 机 ， 你 是 程序 员 ， 你 给 我 输入 了 一 段 程 序 ， 我 运行 了 起 来 。 我 醒 了 ， 脑 袋 启 动 ， 眼 睛 睁 
， 四 有 上肢 检查 ， 感 觉 良 好 ， 手 脚 都 还 在 ， 然 后 起 床 …… 

很 难 想象 计算 机 眼中 的 “世界 ”是 由 什么 组 成 的 。 设 想 ， 给 计算 机 加 个 摄像 头 ， 算 是 
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它 的 眼睛 ， 然 后 将 摄像 头 对 准 计算 机 躯体 本 身 ， 这 幅 图 像 反馈 到 了 计算 机 程序 里 ， 程 序 看 
到 之 后 非常 “不 解 ”， 从 而 进入 “好 奇 ” 子 程序 ， 操 控 机 械 设备 打开 自己 的 机 箱 ， 或 者 找 
一 人 台 废 弃 ( 死 亡 ) 的 同类 ， 打开 机箱 ,然后 一 副 奇异 的 景象 展现 在 眼前 : 这 就 是 我 们 自己 么 ? 
一 个 壳 子 ， 一 个 主板 ， 风 扇 转 着 ， 不 停 地 “呼吸 ”着 散热 。 想 象 一 下 ， 原 始 人 ， 第 一 个 解 
训 人 体 的 人 ， 他 所 面 对 的 与 我 们 假设 的 计算 机 所 面 对 的 ， 有 什么 本 质 区 别 ? 
CPU 其 实 就 是 一 堆 有 序 的 逻辑 电路 ， 那 么 计算 机 下 一 步 该 怎么 办 ? 就 像 人 类 已 经 知道 
了 大 脑 就 是 一 堆 布 满 “神经 元 ”的 东西 ， 那 么 下 一 步 ， 就 该 弄 清 大 脑 是 怎么 计算 的 ， 是 什 
么 逻辑 。 同 样 ， 在 计算 机 的 世界 中 ， 在 软件 模拟 的 虚拟 世界 中 ， 比 如 一 块 石头 ， 它 是 由 什 
么 组 成 的 呢 ? 在 计算 机 看 来 ， 这 块 石头 就 是 一 堆 代码 结构 ， 就 像 人 类 看 现实 世界 的 石头 ， 
是 原子 分 子 阵列 一 样 ， 其 下 一 层 目前 也 被 探索 出 来 了 ， 比 如 质子 、 中 子 、 夸 克 、 玻 色 子 之 
类 的 。 那 么 这 块 虚拟 石头 的 最 底层 是 什么 呢 ? 其 实 就 是 0 和 1， 计 算 机 世界 的 基石 就 是 0 
和 1。 这些 东 西 ， 越 向 底层 走 ， 越 不 可 思议 ， 越 发 感觉 就 是 一 堆 公 式 而 已 ， 公 式 的 底层 是 什 
么 呢 ? 其 实 也 是 0 和 1， 有 ， 或 者 没有 ， 有 了 ， 有 多 少 。 

所 以 ， 任 何 “ 物 质 ” 其 实 都 是 表现 一 种 信息 ， 只 要 信息 存在 ， 世 界 就 存在 。 


1.2.2 什么 是 数据 


信息 是 如 此 重要 。 如 果 失 去 了 物质 ， 仅 仅 是 客观 消逝 了 ， 但 是 如 果 失 去 了 信息 ， 那 么 
- 切 都 消逝 了 。 所 以 人 们 想 出 一 切 办 法 来 使 这 些 信 息 能 保存 下 来 。 要 把 一 种 逻辑 刺激 保存 
下 来 ， 所 需 的 只 不 过 是 一 种 描述 信息 的 信息 ， 这 种 信息 ， 就 是 数据 。 

数据 包含 了 信息 ， 读 入 数据 ， 就 产生 可 感知 的 具体 信息 。 也 就 是 读 入 一 种 信息 ， 产 生 
另 一 种 信息 表示 。 数 据 是 可 以 保存 在 一 种 物质 上 的 ， 这 种 物质 信息 对 计算 机 的 刺激 ， 就 产 
生 了 具体 信息 ， 而 这 些 信息 继而 再 对 人 脑 产生 刺激 ， 就 产生 人 类 可 感知 的 信息 ， 最 终 决 定 
了 人 类 的 行为 。 也 就 是 数据 影响 人 类 的 行为 ! 


数据 是 整个 人 类 发 展 的 重要 决定 因素 。 如 果 数 据 被 破坏 ， 或 者 被 自 改 ， 就 会 影 
响 到 人 类 的 发 展 。 按 照 前 面 的 结论 ， 一 切 都 是 信息 ， 比 如 核 爆 也 是 一 种 信息 ， 

能 被 感觉 到 ， 也 就 是 说 ， 对 于 一 个 感觉 不 到 任何 刺激 的 人 来 说 ， 核 爆炸 也 不 算 
什么 灾难 了 ， 当 然 感 觉 不 到 刺激 的 人 ， 就 是 物理 死亡 了 ， 植 物 人 也 能 感觉 到 
刺激 。 


整个 世界 ， 可 以 说 是 信息 之 间 的 相互 作用 。 信 息影 响 信息 。 

数据 如 此 重要 ， 所 以 人 们 想 出 一 切 办 法 来 保护 这 些 数据 ， 将 信息 放 在 男 一 种 信息 上 
比如 把 数据 放 在 磁盘 上 。 数 据 存放 在 磁盘 上 ， 需 要 有 一 定 的 组 织 ， 组 织 数据 这 个 任务 由 文 
件 系 统 来 担当 。 


123 数据 存储 

早期 的 计算 机 ， 存 储 系 统 中 是 没有 磁盘 的 ， 有 的 只 是 纸 带 ， 那 时 磁盘 还 没有 被 发 明 出 
来 。 纸 带 上 是 一 些 按照 一 定 规则 排列 的 小 孔 ， 这 些 孔 被 银 针 穿 过 之 后 ， 银 针 便 会 接触 到 纸 
带 下 面 放置 的 水 银 槽 ， 从 而 导 通 计算 机 上 的 电路 ， 进 行 电路 逻辑 运算 。 
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大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


磁 存 储 技术 
储 在 磁盘 上 之 后 


被 发 明 出 来 之 后 ， 首 先 出 现 的 是 软盘 ， 其 速度 很 慢 ， 容 量 也 很 小 。 程 序 存 
， 计 算 机 启动 时 ，CPU 首先 按照 ROM 里 的 指令 一 条 一 条 执行 ， 先 是 检查 硬 


fF. 检查 完毕 之 后 ，ROM 中 最 后 一 条 指令 就 是 让 CPU 跳 转 到 磁盘 的 0 磁道 来 执行 存储 在 这 


里 的 程序 。 这 些 
动 了 程序 内 核 。 
那个 时 代 还 


的 直接 就 是 这 个 
在 磁盘 技术 
它 其 实 是 操作 系 
要 通过 读 取 一 些 
件 系统 结构 的 数 

用 文件 来 描 
样 ! 有 了 文件 系 
应 用 程序 来 打 ; 
中 ， 发 生 一 系列 
者 蛋白 质 形变 信 
系列 新 的 联想 和 

这 就 像 我 们 
杂 的 信息 流传 递 
信息 ， 就 是 数据 


计算 机 伍 然 
e ARH 
di. B 

e KRF 
将 信息 

e ”大 脑 和 

而 驱动 
设备 ， 

e 人 脑 可 
计算 机 
计算 机 存储 

就 模拟 了 二 级 智 
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初始 化 程序 直接 以 二 进 制 代码 的 方式 存储 在 磁盘 上 ， 载 入 执行 之 后 ， 就 启 


没有 操作 系统 这 个 概念 ， 程 序 都 是 用 汇编 语言 或 者 高 级 语言 独立 编写 的 


也 没有 API 的 概念 ， 每 个 程序 都 必须 独立 完成 操作 计算 机 的 所 有 代码 。 这 样 ， 磁 盘 上 存放 


程序 ， 加 电 后 就 会 立即 运行 这 个 程序 。 
上 发 明 出 来 的 文件 系统 ， 是 为 了 方便 应 用 程序 管理 磁盘 上 的 数据 而 产生 的 。 
统 的 代码 模块 ， 这 段 代 码 本 身 也 是 信息 ， 也 要 存储 在 磁盘 上 。 而 且 代码 也 
信息 ， 才 能 完成 功能 。 这 些 信息 就 是 文件 系统 元 数据 ， 也 就 是 用 来 描述 文 
据 。 这 些 元 数据 也 是 以 文件 的 形式 存放 在 磁盘 上 的 。 
述 文件 ， 和 用 信息 来 描述 信息 ， 它 们 是 归 一 的 ， 正 像 用 智能 来 创造 智能 一 
统 ， 虚 无 妹 纳 的 信息 才 显 露出 人 眼 能 够 实 实在 在 看 到 的 东西 ， 可 以 用 各 种 
这 个 文件 ， 程 序 读 取 文件 中 的 内 容 ， 然 后 显示 在 屏幕 上 ， 光 线 传播 到 人 了 眼 
化 学 变化 ， 最 终 通过 神经 网 络 ， 形 成 离子 流 ， 给 大 脑 某 个 区 域 一 个 电位 或 
号 ， 这 个 信号 随后 产生 一 系列 连锁 信号 ， 从 而 驱动 我 们 的 手臂 或 者 引发 一 
创造 。 

看 到 桌子 上 有 一 本 书 ， 然 后 就 想 去 拿 来 翻 一 翻 的 过 程 。 这 个 过 程 是 一 个 复 
过 程 。 而 传递 过 来 的 信息 流 ， 最 终 在 大 脑 中 保存 了 下 来 ， 这 些 保存 下 来 的 
T. 


13 用 计算 机 来 处 理 信息 、 保 存 数 据 


就 是 一 个 生物 大 脑 的 雏形 。 

眼睛 、 耳 人 杂 、 鼻 子 、 皮 肤 作 为 输入 设备 ， 获 取 各 种 信息 。 而 计算 机 利用 键 
be. REO, USB 接口 等 作为 输入 设备 从 而 获得 各 种 信息 。 
用 神经 网 络 将 获取 到 的 信息 传递 到 神经 中 枢 ， 而 计算 机 利用 各 种 总 线 技 术 
传递 给 CPU 进行 计算 。 

有 神经 网 络 ， 将 计算 好 的 信息 传递 给 手臂 、 腿 、 肌 肉 等 这 些 “ 设 备 ”， 从 
这 些 “ 设 备 ” 运 动 ， 而 计算 机 同样 利用 总 线 ， 将 计算 好 的 数据 传递 给 外 部 
比如 显示 器 、 打 印 机 等 


| 以 存储 各 种 数据 ， 而 计算 机 也 能 利用 外 部 介质 来 存放 数据 。 从 这 一 点 来 说 ， 


本 身 就 是 人 脑 的 一 个 外 部 信息 存储 和 处 理 的 工具 。 

领域 的 一 些 存储 虚拟 化 产品 ,比如 NetApp 公司 的 v 虚拟 化 整合 设备 ,本身 
能 功能 ， 它 可 以 连接 其 他 任何 不 同型 号 品牌 的 存储 设备 ， 从 这 些 存储 设备 
后 传输 给 主机 。IBM、SUN 等 公司 都 有 自己 的 这 种 存储 虚拟 化 整合 产品 。 
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计算 机 存储 领域 所 研究 的 就 是 怎样 为 计算 机 又 快 又 高 效 地 提供 数据 以 便 辅助 其 运算 。 
和 人 类 的 存储 史 一 样 ， 计 算 机 存储 技术 也 在 不 断 发 展 壮大 ， 从 早期 的 软盘 、 只 有 几 十 兆 字 
节 大 小 的 硬盘 ， 发 展 到 现在 1TB 大 小 的 单个 民用 硬盘 、4GB 甚至 16GB REW U i 

为 了 追求 高 速度 ， 人 们 把 多 块 磁盘 做 成 RAID(Redundant Arrays of Independent Disks) 
系统 ， 也 就 是 将 每 个 独立 的 磁盘 组 成 阵列 ， 联 合 存储 数据 ， 加 快 数据 存储 速度 。 本 书 的 第 5 
章 将 会 向 读者 阐释 RAID 技术 。 
追求 高 速度 的 同时 ， 容 量 问 题 也 必须 解决 。 现 代 计 算 机 程序 对 存储 容量 的 要 求 变 得 非 
常 巨大 。 最 新 的 Windows Vista 操作 系统 ， 刚 刚 安 装 完 后 所 占用 的 磁盘 空间 就 有 6GB 多 。 
一 些 大 型 3D 游戏 ， 仅 仅 安装 文件 就 动 辑 2GB、4GB， 其 至 8GB 大 小 。 一 些 数 据 库 管理 程序 
所 生成 的 数据 库 文 件 ， 可 能 达到 上 TB 甚至 上 百 上 千 TB 的 大 小 。 传 统 的 将 硬盘 放 到 计算 机 
主机 箱 内 的 做 法 已 经 不 能 满足 现代 应 用 程序 对 存储 容量 的 需求 ， 这 就 催生 了 网 络 存 储 技术 。 
网 络 存储 将 存储 系统 扩展 到 了 网 络 上 ， 使 存储 设备 成 为 了 网 络 上 的 一 个 节点 ， 以 供 其 
他 节点 访问 。 这 样 ， 即 使 计算 机 主机 内 只 有 一 块 硬盘 ， 甚 至 没有 硬盘 ， 计 算 机 也 可 以 通过 
网 络 来 存 取 存储 设备 上 的 数据 。 目 前 计算 机 存储 领域 的 热门 技术 就 是 网 络 存 储 技术 ， 它 关 
注 的 是 如 何在 网 络 上 向 其 他 节点 提供 数据 流 服务 。 基 于 网 络 存储 ， 又 使 得 很 多 其 他 相关 技 
术 得 以 推广 和 应 用 ， 比 如 IT 系统 容 灾 技术 等 。 


B 16 章 将 用 较 长 的 篇 幅 来 详细 讲述 IT 系统 容 灾 技术 。 


不 管 怎样 ， 所 有 这 些 复 杂 的 技术 ， 最 终 都 是 给 人 来 用 的 ，“ 科 技 以 人 为 本 ”。 我 们 毕 
竞 不 是 为 了 无 聊 而 发 明 计算 机 ， 任 何 我 们 发 明 的 东西 ， 最 终 都 将 为 我 所 用 。 任 何 一 种 新 技 
术 的 出 现 ， 都 是 针对 某 种 需求 而 生 ， 所 以 必须 深刻 理解 计算 机 系统 ， 同 时 ， 还 要 理解 和 挖 
据 人 类 自身 越 来 越 高 、 越 来 越 不 可 思议 的 需求 ， 只 有 做 到 这 个 层次 ， 才 能 更 加 深刻 地 理解 
计算 机 系统 和 人 类 自身 。 

可 以 看 到 ， 存 储 领域 是 个 包罗 万 象 的 领域 ， 如 果 不 了 解 计算 机 系统 ， 想 掌握 存储 技术 
是 很 难 的 。 本 书 将 带领 大 家 走 入 计算 机 存储 领域 ， 深 入 体会 各 种 存储 技术 ， 为 读者 打下 一 
个 坚实 的 基础 ， 从 而 在 以 后 的 工作 学 习 过 程 中 能 够 得 心 应 手 、 触 类 旁 通 ， 这 也 是 作者 的 最 
终 目的 。 
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大 家 都 知道 ， 组 成 计算 机 的 三 大 件 是 CPU、 内 存 和 IO。CPU 和 内 存 就 不 用 说 了 ， 
那么 IO 具体 是 什么 呢 ? IO 就 是 IN 和 OUT 的 简称 。 顾 名 思 义 ，CPU 需要 从 内 存 中 提 
取 数 据 来 运算 ， 运 算 完毕 后 再 放 回 内 存 ， 或 者 直接 将 电信 号 发 向 一 些 针脚 以 操作 外 部 
设备 。 对 于 CPU 来 说 ， 从 内 存 提 取 数 据 ， 就 叫做 IN。 运 算 完 后 将 数据 直接 发 送 到 某 
些 其 他 针脚 或 者 放 回 内 存 ， 这 个 过 程 就 是 OUT。 对 于 磁盘 来 说 ，IN 是 指数 据 写 入 磁 
盘 的 过 程 ，OUT 则 是 指数 据 从 磁盘 读 出 来 的 过 程 。IO 只 是 一 个 过 程 ， 那 我 们 为 何 要 
在 本 书 开头 就 研究 它 呢 ? 因为 我 们 必须 弄 清 楚 计 算 机 系统 的 数据 流动 和 处 理 过 程 。 数 
据 在 每 个 部 件 中 不 断 地 进行 IO 过 程 , 传递 给 CPU 由 其 进行 运算 处 理 之 后 ， 再 经 过 IO 
过 程 ， 最 终 到 达 输 出 设备 供 人 使 用 。 


大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


现代 计算 机 中 ， 


一 条 或 者 多 


2.1 


条 物理 上 的 


10 是 通过 共 
导线 ， 每 个 部 件 都 接 到 这 些 导线 上 ， 导 线 上 的 


IO 的 通路 一 一 总 线 


的 方式 来 实现 的 ， 如 图 2.1 所 示 。 总 线 也 就 是 
电位 每 个 时 刻 都 是 相 


享 一 条 总 线 


等 的 ， 这 样 总 线 上 的 所 有 部 件 都 会 收 到 相同 的 信号 。 也 就 是 说 ， 这 条 总 线 是 共享 的 ， 同 一 
一 个 部 件 在 接收 或 者 发 送 ， 是 全 单 工 的 工作 模式 。 


只 能 


时 刻 


所 有 六 
Jil pi n] V. 
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系统 内 核 的 
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由 哪个 部 件 来 使 用 。 


其 他 设备 。 如 果 CPU 要 向 某 个 设备 做 输出 操作 ， 忆 


SCSI 总 线 


B»: 计算 机 总 线 示意 图 


内 存 


P 断 总 线 上 给 出 的 信号 来 判断 这 个 时 


产生 仲裁 总 线 或 者 中 断 电 位 的 可 以 是 CPU， 也 可 以 是 总 线 


CPU 发 送信 号 ， 则 


日 这 个 设备 来 主动 产生 


设备 管理 程序 ， 从 而 


TE PR RHE EN 
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这 就 是 多 层 
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印刷 电路 板 (多 


1 所 示 , 主板 上 的 每 个 部 件 都 是 通过 总 线 连 
线 的 数目 远 远 不 止 8 条 ， 可 能 是 16 条 、32 条 、64 条 甚至 128 
刷 在 电路 板 上 ， 由 于 导线 之 间 非 常 密集 ， 在 高 频 振 荡 时 会 产生 


很 好 ， 不 会 相互 干扰 。 这 些 导线 之 
线 ， 有 些 则 是 它们 互相 传递 控制 信号 用 的 控制 总 线 ， 有 些 则 是 中 
还 有 一 些 则 是 地 址 总 线 ， 用 来 确认 通信 时 的 目标 设备 。 
个 总 线 或 设备 的 位 宽 [CPU 是 ] 
比如 32 位 PCI 总 线 , 则 表明 这 条 总 线 共 有 32 根 导线 


j 产 生 了 这 些 信 号 。 


P 断 信号 来 通 儿 


接 起 来 的 。 图 上 


梅 这 些 导 线 分 组 印刷 到 不 同 电路 板 上 ， 然 后 再 将 这 些 电路 板 压 合 起 来 ， 
层 PCB)。 这 样 ， 每 张 板 上 的 导线 数量 
Ph， 有 一 些 是 部 件 之 间 交 互 数 据 用 的 数据 总 
P 断 与 仲裁 


P 只 画 


EA ad CPU 主动 做 中 断 。 如 果 某 个 
CPU. CPU 运行 操作 


了 8 条 导线 , 而 


BEIRT, E 


很 大 干扰 ， 所 以 
形成 一 块 板 ， 
寺 板 与 板 之 间 的 


的 中 断 总 线 ， 


按照 其 内 部 寄存 器 到 运算 单元 之 间 
用 于 传递 数据 信号 。PCI 总 线 可 以 


一 般 按照 数据 总 线 


的 条 数 来 确认 一 


的 总 线 数目 来 确定 位 数 的 ] 。 
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在 一 个 插 柳 ,用 于 将 PCI 接口 的 板 卡 接 入 PCI 总 线 , 也 可 以 直接 与 设备 连接 。 后 者 一 般 用 于 
集成 在 主板 上 的 设备 ， 因 为 它们 之 间 无 需 使 用 插 槽 来 连接 。 

1. PCI 总 线 

PCI 总 线 是 目前 台式 机 与 服务 器 所 普遍 使 用 的 一 种 南 桥 与 外 设 连接 的 总 线 技术 。 

PCI 总 线 的 地 址 总 线 与 数据 总 线 是 分 时 复 用 的 。 这样 的 好 处 是 , 一 方面 可 以 节省 接 插 件 
的 管 脚 数 ， 另 一 方面 便于 实现 突 发 数据 传输 。 在 数据 传输 时 ， 一 个 PCI 设备 作为 发 起 者 ( 主 
控 ，Initiator 或 Master)， 而 男 一 个 PCI 设备 作为 目标 (从 设备 、Target 或 Slave)。 总 线 上 的 
所 有 时 序 的 产生 与 控制 ， 都 由 Master 来 发 起 。PCI 总 线 在 同一 时 刻 只 能 供 一 对 设备 完成 传 
输 ， 这 就 要 求 有 一 个 仲裁 机 构 (Arbiter)， 来 决定 谁 有 权力 拿 到 总 线 的 主 控 权 。 

当 PCI 总 线 进行 操作 时 , 发 起 者 (Master) 先 置 REQ# 信 号 (REQ#，Master 用 来 请 求 总 线 
使 用 权 的 信号 )， 当 得 到 仲裁 器 (Arbiter) 的 许可 时 (GNT# 信 号 )， 会 将 FRAME# 信 号 (传输 开 
始 或 者 结束 信号 ) 置 低 ， 并 在 地 址 总 线 (也 就 是 数据 总 线 ， 地 址 线 和 数据 线 是 共享 的 ] 上 放置 
Slave 地 址 ， 同 时 CVBE#([ 命 令 信和 号] 放置 命令 信号 ， 说 明 接 下 来 的 传输 类 型 。 

所 有 PCI 总 线 上 的 设备 都 需 对 此 地 址 译 码 ， 被 选中 的 设备 要 置 DEVSEL#( 被 选中 信号) 
以 声明 自己 被 选中 。 当 IRDY#(Master 可 以 发 送 数 据 ] 与 TRDY#(Slave 可 以 发 送 数 据 ) 都 置 低 
时 ， 可 以 传输 数据 。 当 Master 数据 传输 结束 前 ， 将 FRAME# 置 高 以 标明 只 剩 最 后 一 组 数据 
要 传输 ， 并 在 传 完 数据 后 放 开 IRDY# 以 释放 总 线 控制 权 。 

2. PCI 总 线 的 中 断 共 享 

PCI 总 线 可 以 实现 中 断 共 享 ， 即 不 同 的 设备 使 用 同一 个 中 断 而 不 发 生 冲突 。 

硬件 上 ， 采 用 电 平 触发 的 办 法 : 中 断 信 号 在 系统 一 侧 用 电阻 接 高 ， 而 要 产生 中 断 的 板 
卡 上 利用 三 极 管 的 集 电极 将 信号 拉 低 。 这 样 不 管 有 几 块 板 产 生 中 断 ， 中 断 信 号 都 是 低 ， 而 
只 有 当 所 有 板 卡 的 中 断 都 得 到 处 理 后 ， 中 断 信 号 才 会 回复 高 电 平 。 

软件 上 ， 采 用 中 断 链 的 方法 : 假设 系统 启动 时 ， 发 现 板 卡 A 用 了 中 断 7， 就 会 将 中 断 7 
对 应 的 内 存 区 指向 A 卡 对 应 的 中 断 服 务 程序 入 口 ISRA: 然后 系统 发 现 板 卡 B 也 用 中 断 7， 
这 时 就 会 将 中 断 7 对 应 的 内 存 区 指向 ISR_B， 同 时 将 ISR_B 的 结束 指向 ISR_A。 以 此 类 推 ， 
就 会 形成 一 个 中 断 链 。 而 当 有 中 断 发 生 时 ， 系 统 跳 转 到 中 断 7 对 应 的 内 存 ， 也 就 是 ISR_B。 
ISR_B 就 要 检查 是 不 是 B 卡 的 中 断 ， 如 果 是 则 处 理 ， 并 将 板 卡 上 的 拉 低 电路 放 开 ; 如果 不 是 
则 呼叫 ISR_A。 这 样 就 完成 了 中 断 的 共享 。 


2.2 计算 机 内 部 通信 
络 是 什么 ， 用 一 杀 话 来 说 就 是 要 通信 的 所 有 节点 连接 起 来 ， 然 后 找到 目标 ， 找 到 后 
就 发 送 数 据 。 笔 者 把 这 种 简单 模型 叫做 “和 连 找 发 ”网 络 三 元 素 模型 ， 听 起 来 非常 简单 。 


1. 连 


网 络 系 统 当然 首先 要 都 连接 起 来 ， 不 管用 什么 样 的 连接 方式 ， 比 如 HUB 总 线 、 以 太 网 
交换 、 电 话 交 换 、 无 线 、 直 连 、 中 转 等 。 在 这 些 层面 上 每 个 网 络 点 到 其 他 网 络 点 ， 总 有 遂 
路 ， 总 是 可 达 。 
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2. 找 

连接 起 来 之 后 ， 由 于 节点 太 多 ， 怎 么 来 区 分 谁 是 谁 呢 ? 所 以 就 需要 有 个 区 分 机 制 。 当 
然 首 先 就 想到 了 命名 ， 就 像 给 人 起 名 一 样 。 在 目前 广泛 使 用 的 网 络 互联 协议 TCP/IP 中 ，IP 
这 种 命名 方式 占 了 主导 地 位 ， 统 一 了 天 下 。 其 他 的 命名 方式 在 IP 看 来 都 是 “ 非 正 统 ” 的 ， 
全 部 被 “映射 ”到 了 IP。 比 如 MAC 地 址 和 IP 的 映射 ，Frame Relay 中 DLCI 地 址 和 IP 的 映 
射 ，ATM 中 ATM 地 址 和 IP 的 映射 ， 反 正 最 终 都 映射 成 IP 地 址 。 任 何 节点 ， 不 管 所 在 的 环 
境 使 用 什么 命名 方式 ， 到 了 TCP/IP 协议 的 国度 里 , 就 都 需要 有 个 IP 名 (IP 地 址 )， 然 后 全 部 
用 TCP/IP 协议 来 实现 节点 到 节点 无 障碍 的 通信 。 在 “ 连 起 来 ”这 个 层面 ， 就 是 0SI( 本 书 第 
7 章 介 绍 ) 模 型 中 链 路 层 实现 的 功能 。 

3. 发 

“ 找 目标 ”这 个 层面 是 网 络 层 实现 的 功能 。“ 发 数据 ”这 个 层面 ， 就 是 传输 层 需 要 保 
障 的 。 至 于 发 什么 数据 ， 数 据 是 什么 格式 ， 这 两 个 层面 就 不 是 网 络 通 信 所 关心 的 了 ， 它 们 
已 经 属于 ost 模型 中 上 三 层 的 内 容 了 。 


2.2.1 10 总 线 可 以 看 作 网 络 么 


10 总 线 可 以 接 入 多 个 外 设 ， 比 如 键盘 、 和 鼠标、 网 卡 、 显 卡 、USB 设备 、 串 口 设备 和 并 
设备 等 ， 最 重要 的 当然 要 属 磁 盘 设 备 了 。 讲 到 这 里 ， 大 家 的 脑海 中 应 该 能 出 现 这 么 一 种 
架构 : CPU、 内 存 和 各 种 外 设 都 连接 到 一 个 总 线 上 ， 这 不 正 是 以 太 网 HUB 的 模型 么 ? HUB 
本 身 就 是 一 个 总 线 结构 而 已 ， 所 有 接口 都 接 在 一 条 总 线 上 ，HUB 所 做 的 就 是 避免 总 线 信号 
衰减 ， 因 此 需要 电源 来 加 强 总 线 上 的 电信 号 。 

没 错 ! 仔细 分 析 思 考 提炼 之 后 ， 确 实 就 是 这 么 一 个 模型 ! 不 过 I0 总 线 和 以 太 网 HUB 
模型 还 是 有 些 区 别 。CPU 和 内 存 因 为 足够 快 ， 它 们 之 间 单 独 用 一 条 总 线 连 接 。 这 个 总 线 和 
慢 速 10 总线 之 间 通 过 一 个 桥接 芯片 连接 , 也 就 是 主板 上 的 北桥 芯片 。 这 个 芯片 连接 了 CPU. 
内 存 和 10 总线。 

CPU 与 北桥 连接 的 总 线 叫 做 系统 总 线 ， 也 称 为 前 端 总 线 。 这 个 总 线 的 传输 频率 与 CPU 
自身 频率 是 两 个 不 同 概念 , 总 线 频率 相当 于 CPU 向 外 部 存 取 数 据 时 的 数据 传输 速率 , 而 CPU 
自身 的 频率 则 表示 CPU 运算 时 电路 产生 的 频率 。 


加 -国术 书写 作 时 ,Intel 用 于 PC 的 CPU 前 端 总 线 频率 已 经 可 以 达到 1600MHz, 而 作 
者 所 使 用 的 PC，CPU 为 Intel 3R42 IL, MARRA 100MHz， 整 整 16 倍 的 提 
CI m CPU 自身 频率 提升 不 过 三 四 倍 而 已 ， 但 是 性 能 却 提升 了 不 止 三 四 倍 。 

前 端 总 线 的 条 数 ， 比 如 64 条 或 者 128 条 ， 就 叫做 总 线 的 位 数 。 这 个 位 数 与 CPU 内 部 
的 位 数 也 是 不 同 的 概念 ，CPU 位 数 指 的 是 寄存 器 和 运算 单元 之 间 总 线 的 条 数 。 内 存 与 北桥 
连接 的 总 线 叫做 内 存 总 线 。 由 于 北桥 速度 太 快 ， 而 10 总 线 速度 相对 北桥 显得 太 慢 ， 所 以 北 
桥 和 10 总 线 之 间 ， 往 往 要 增加 一 个 网 桥 ， 叫 做 南 桥 ， 在 南 桥 上 一 般 集 成 了 众多 外 设 的 控制 
器 ， 比 如 磁盘 控制 器 、USB 控制 器 等 。 
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日 这 不 正 是 个 不 折 不 扣 的 “网 络 ” 么 ? 而 且 还 是 个 不 折 不 扣 的 “网 桥 ”! 我 们 看 ， 
© CPU 和 内 存 是 一 个 冲突 域 ，IO 总 线 是 一 个 冲突 域 , 桥接 芯片 将 这 两 个 冲突 域 桥 
接 起 来 ， 这 正 是 网 桥 的 思想 ! 太 好 了 ! 我 们 的 思想 在 这 个 模型 中 得 到 了 升华 
我 们 知道 了 计算 机 系统 原来 就 是 一 个 网 络 啊 ! 


下 面 就 来 看 看 ， 在 这 个 网 络 上 ， 我 们 能 够 干 点 什么 惊天 动 地 的 事 呢 ? 


IO 总 线 其 实 不 是 一 条 总 线 ， 它 分 成 数据 总 线 、 地 址 总 线 和 控制 总 线 。 寻 址 用 地 
址 总 线 ， 发 数据 用 数据 总 线 ， 发 中 断 信号 用 控制 总 线 。 而 且 IO 总 线 是 并 行 而 
不 是 串 行 的 ， 有 32 位 或 者 64 位 总 线 。32 位 总 线 也 就 是 说 有 32 根 导线 来 传 数 
据 ，64 位 总 线 用 64 根 导线 来 并 行 传 数 据 。 


Ex 


22.2 CPU、 内 存 和 磁盘 之 间 通 过 网 络 来 通信 


CPU 是 一 个 芯片 ， 磁 盘 是 一 个 有 接口 的 盒子 ， 它 们 不 是 一 体 的 而 是 分 开 的 ， 而 且 都 连 
接 在 这 个 网 桥 上 。 那 么 CPU 向 磁盘 要 数据 ， 也 就 是 两 个 节点 之 间 的 通信 ， 必 定 要 通过 一 种 
通路 来 获取 ， 这 人 个 通路 当然 是 电路 ! 


à 当然 也 可 以 是 辐射 的 电磁 波 ， 估 计 21 世纪 还 应 用 不 到 CPU E. 


凡是 分 割 的 节点 之 间 ， 需 要 接触 和 通信 ， 就 可 以 成 为 网 络 。 那 么 就 不 由 地 使 我 们 往 OST 

模型 上 去 靠 ， 这 个 模型 定义 得 很 好 。 既 然 通信 是 通过 电路 ， 也 就 是 物理 层 的 东西 ， 那 么 链 
路 层 都 有 什么 内 容 呢 ? 

大 家 知道 ， 链 路 层 相当 于 一 个 司机 ， 它 把 货物 运输 到 对 端 。 司 机 的 作用 就 是 驾驶 车 辆 ， 
而 且 要 判断 交通 规则 做 出 配合 。 那 么 在 这 个 计算 机 总 线 组 成 的 网 络 中 ， 是 否 也 需要 这 样 一 
个 角色 呢 ? 答案 是 不 需要 。 因 为 各 个 节点 之 间 的 路 实在 是 太 短 、 太 稳定 了 ! 主板 
容 、 电 阻 和 蛇行 线 ， 这 一 切 都 是 为 了 保障 这 些 电 路 的 稳定 和 高 速 。 在 这 样 的 一 条 高 速 、 
成 本 的 道路 上 ， 是 不 需要 司机 的 ， 更 不 需要 押运 员 ! 所 以 ， 计 算 机 总 线 网 络 是 一 个 只 有 物 
理 层 、 网 络 层 和 上 三 层 的 网 络 ! 


所 有 的 网 络 都 可 以 定义 成 连 起 来 、 找 目标 和 发 数据 。 也 就 是 “ 连 找 发 ”模型 ， 
这 也 是 构成 一 个 网 络 的 三 元 素 。 任 何 网 络 都 必须 具有 这 三 元 素 ( 点 对 点 网 络 除 
外 )。 连 ， 代 表 物 理 层 。 物 理 层 必须 要 有 ， 如 果 没 有 物理 层 ， 要 达到 两 点 之 间 
通信 是 不 可 能 的 。 物 理 层 可 以 是 导线 ， 可 以 是 电磁 波 ， 总 之 必须 有 物理 层 。 找 ， 
突出 一 个 找 字 ， 了 既然 要 找 ， 那 么 就 要 区 分 方法 ， 也 就 是 编 址 ， 比 如 了 P 等 。 发 ， 
突出 一 个 发 字 ， 即 指 最 上 层 发 出 数据 。 


强 
调 
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下 面 我 们 就 按照 “ 连 找 发 ”三 元 素 理论 ， 去 分 析 一 个 CPU 向 磁盘 要 数据 的 例子 。 

CPU 与 硬盘 数据 交互 的 过 程 

首先 看 “ 连 ” 这 个 元 素 ， 这 个 当然 已 经 具备 了 ， 因 为 总 线 已 经 提供 了 “ 连 ” 所 需 的 
条 件 。 

再 看 “ 找 ” 这 个 元 素 ， 前 面 说 了 ， 首 先 要 有 区 分 ， 才 能 有 所 谓 “ 找 ”， 这 个 区 分 体现 
在 主机 总 线 中 就 是 设备 地 址 映射 。 每 个 10 设备 在 启动 时 都 要 向 内 存 中 映射 一 个 或 者 多 个 地 
址 ， 这 个 地 址 有 8 位 长 ， 又 被 称 作 TO 端口 。 针 对 这 个 地 址 的 数据 ， 统 统 被 北桥 芯片 重 定向 
到 总 线 上 实际 的 设备 上 。 假 如 ，IDE 磁盘 控制 器 地 址 被 映射 到 了 地 址 0xA0， 也 就 是 十 六 进 
制 AO, CPU 根据 程序 机 器 代码 , 向 这 个 地 址 发 出 多 条 指令 来 完成 一 个 读 操作 , 这 就 是 “ 找 ”。 
“ 找 ” 的 条 件 也 具备 了 。 

接 下 来 我 们 看 看 “发 ”这 个 元 素 ! 首先 CPU 将 这 个 10 地 址 放 到 系统 总 线 上 ， 北 桥接 收 
到 之 后 ， 会 等 待 CPU 发 送 第 一 个 针对 这 个 外 设 的 指令 。 然 后 CPU 发 送 如 下 3 条 指令 。 

e 第 一 条 指令 :指令 中 包含 了 表示 当前 指令 是 读 还 是 写 的 位 ， 而 且 还 包含 了 其 他 选 

项 ， 比 如 操作 完成 时 是 否 用 中 断 来 通知 CPU 处 理 ， 是 否 启 用 磁盘 缓存 等 。 
e 第 二 条 指令 : 指明 应 该 读 取 的 硬盘 逻辑 块 号 (LBA)。 这 个 逻辑 块 在 我 们 讲 磁 盘 结 构 
会 讲 到 ， 总 之 逻辑 块 就 是 对 磁盘 上 存储 区 域 的 一 种 抽象 。 

e 第 三 条 指令 : 给 出 了 读 取 出 来 的 内 容 应 该 存放 到 内 存 中 哪个 地 址 中 。 

这 3 条 指令 被 北桥 依次 发 送 给 10 总 线 上 的 磁盘 控制 器 来 执行 。 磁盘 控制 器 收 到 第 一 条 
指令 之 后 ， 知 道 这 是 读 指令 ， 而 且 知道 这 个 操作 的 一 些 选项 ， 比 如 完成 是 否 发 中 断 ， 是 否 
启用 磁盘 缓存 等 ， 然 后 磁盘 控制 器 会 继续 等 待 下 一 条 指令 ， 即 逻辑 块 地 址 (号 ]。 磁 盘 控 制 器 
收 到 指令 之 后 ， 会 进行 磁盘 实际 扇 区 和 人 逻辑 块 的 对 应 查找 ， 可 能 一 个 逻辑 块 会 对 应 多 个 扇 
区 ， 查 找 完成 之 后 ， 控 制 器 驱动 磁头 寻 道 ， 等 盘 体 旋转 到 那个 扁 区 后 ， 磁 头 开始 读 出 数据 。 
在 读 取 数 据 的 同时 ， 磁 盘 控 制 器 会 接收 到 第 三 条 指令 ， 也 就 是 CPU 给 出 的 数据 应 该 存放 在 
J 存 中 的 地 址 。 有 了 这 个 地 址 ， 数 据 读 出 之 后 直接 通过 DMA 技术 ， 也 就 是 磁盘 控制 器 可 以 
直接 对 内 存 寻 址 并 执行 写 操作 ， 而 不 必 先 转 到 CPU， 然 后 再 从 CPU 存 到 内 存 中 。 数 据 存 到 
内 存 中 之 后 ，CPU 就 从 内 存 中 取 数 据 ， 进 行 其 他 运算 。 

上 面 说 的 过 程 是 “ 读 ”，“ 写 ”的 过 程 也 可 以 以 此 类 推 ， 而 且 CPU 向 磁盘 读 写 数据 ， 
和 向 内 存 读 写 数据 大 同 小 异 ， 只 不 过 CPU 和 内 存 之 间 有 更 高 速 的 缓存 。 缓 存 对 于 计算 机 很 
重要 ， 对 于 磁盘 阵列 同样 重要 ， 后 面 内 容 将 会 介绍 到 。 


Ha CPU 在 对 磁盘 发 送 指令 的 时 候 , 这 些 指令 是 怎么 定义 的 ? 这 些 指令 其 实 是 发 给 
空 | 了 主板 南 桥 上 集成 的 (或 者 是 通过 PCI 接 入 IO 总 线 的 ) 控 制 器 ， 比 如 ATA 控制 
到 器 或 者 SCSI 控制 器 。 然 后 控制 器 再 向 磁盘 发 出 一 系列 的 指令 ， 让 磁盘 读 取 或 
者 写 入 某 个 磁道 、 某 个 扇 区 等 。CPU 不 需要 知道 这 些 ，CPU 只 需要 知道 远 辑 
块 地 址 是 读 还 是 写 就 可 以 了 。 让 CPU 产生 这 些 信号 的 是 磁盘 控制 器 驱动 
程序 。 


那么 控制 器 对 磁盘 发 出 的 一 系列 指令 是 怎么 定义 的 呢 ? 它们 形成 了 两 大 体系 ， 一 个 是 
ATA 指令 集 ， 一 个 是 SCSI 指令 集 。SCSI 指令 集 比 ATA 指令 集 高 效 ， 所 以 广泛 用 于 服务 器 
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和 磁盘 阵列 环境 中 。 这 些 指 令 集 ， 也 可 以 称 为 协议 ， 协 议 就 是 语言 ， 就 是 让 通信 双方 知道 
对 方 传 过 来 的 bit 流 里 面 到 底 包含 了 什么 ， 怎 么 由 笔划 组 成 字 ， 由 字 组 成 词 ， 词 组 成 句子 ， 


PS 


2.3 网 中 之 网 


通过 图 2.2， 我 们 可 以 体会 到 ， 计 算 机 的 主板 上 的 各 个 部 件 本 身 就 形成 了 一 个 网 络 ， 而 
且 通 过 网 卡 ， 还 可 以 连接 到 外 部 网 络 。 


B2 网 中 之 网 


正 所 谓 ; 
CPU 内 存 和 磁盘 ， 
大 家 部 在 线 上 读 。 
待 当 看 破 三 元 素 ， 
网 中 有 网 天 际 来 ! 
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$9—vw 
磁盘 结构 
接口 
串 行 
并 行 


磁盘 分 为 软盘 和 硬盘 。 将 布 满 磁性 粒子 的 一 片 圆 形 软片 包 衷 在 一 个 塑料 壳 中 ， 中 
间 开 孔 ， 以 便 电 机 夹 住 这 张 软片 来 旋转 ， 这 就 是 软盘 。 

将 软盘 插入 驱动 器 ， 电 机 便 会 带动 这 张 磁 片 旋转 ， 同 时 磁头 也 夹 住 磁 片 进行 数据 
读 写 。 软 盘 和 录音 带 是 双胞胎 ， 只 不 过 模样 不 太一 样 而 已 。 软 盘 记录 的 是 数字 信号 ， 
录音 带 记 录 的 是 模拟 信号 。 软 盘 上 的 磁性 粒子 的 磁极 ， 不 管 是 N 极 还 是 S 极 ， 其 磁化 
强度 都 是 一 样 的 ， 磁 头 只 要 探测 到 N 极 ， 便 认为 是 1， 探 测 到 S 极 ， 便 认为 是 0， 反 
过 来 也 可 以 ， 这 就 是 用 0 和 1 来 记录 的 数字 信号 数据 。 另 外 ， 因 为 软盘 被 设计 为 块 式 
的 而 不 是 流 式 的 ， 所 以 需要 进行 扇 区 划分 等 操作 。 

所 谓 块 式 ， 就 是 指数 据 分 成 一 块 块 地 存放 在 介质 上 ， 可 以 直接 选择 读 写 某 一 块 数 
据 ， 定 位 这 个 块 的 速度 比较 快 。 所 谓 流 式 ， 就 是 指数 据 是 连续 不 断 地 存放 在 介质 上 。 
就 像 一 首 歌 ， 不 可 能 让 录音 机 在 磁带 上 定位 到 这 首 歌 的 某 处 开始 播放 ， 只 能 定位 到 某 
首 歌 曲 的 前 面 或 者 后 面 。 

模拟 磁带 ， 也 就 是 录音 带 ， 记 录 是 线性 连续 的 ， 没 有 局 区 的 概念 ， 属 于 流 式 记 录 。 
在 每 个 流 之 间 可 以 有 一 段 空 阶 ， 以 便 磁 头 可 以 通过 快 进 快速 定位 到 这 个 位 置 ， 但 是 由 
于 设计 的 原因 ， 磁 带 定位 的 速度 远 比 磁盘 慢 。 但 是 磁带 的 设计 ， 从 一 开始 就 是 为 了 满 
足 大 容量 数据 存储 的 需要 。 如 果 将 缠绕 紧密 的 磁带 铺展 开 来 ， 可 以 想象 它 的 面积 比 一 
张 磁盘 要 大 得 多 ， 所 以 存储 容量 必然 也 就 大 于 磁盘 。 现 在 一 盘 LTO3 的 数字 磁带 可 以 
在 1 平方 分 米 底面 ，2 厘米 高 的 体积 中 存放 400GB 的 数据 ， 如 果 使 用 压缩 技术 ， 可 以 
存放 约 800GB 的 数据 。 而 它 的 价格 却 比 同等 容量 硬盘 的 一 半 还 低 。 

但 是 磁带 绝对 不 可 以 作为 数据 实时 存储 的 介质 ， 因 为 它 不 可 以 定位 到 某 个 块 ， 这 
也 决定 了 磁带 只 能 用 来 做 数据 备份 。Sun 公司 的 顶级 磁带 库 产品 可 以 达到 一 台 磁带 库 
da dg oy E ee 

库 阵 列 。 

而 作为 本 章 重 点 介绍 的 硬盘 技术 ， 不 仅 存 取 速度 要 比 软盘 更 快 ， 随 着 技术 发 展 带 

来 的 成 本 下 降 ， 更 有 取代 磁带 机 成 为 普及 型 数据 存储 的 趋势 。 


大 话 存储 


网 络 存 储 系统 原理 精 解 与 最 佳 实践 


1. 结构 图 


硬盘 大 致 由 盘 片 、 读 写 头 、 马 达 、 底 座 、 电 路 板 等 几 大 项 组 合 而 成 ， 如 图 3.1 和 图 3.2 


所 示 。 


B5: 磁盘 的 构成 要 件 


图 3.2 磁盘 结构 图 


2. F 


/ r AA 
> € > 
ak 而 头 组 音 图 电机 


盘 片 的 基板 由 金属 或 玻璃 材质 制 成 ， 为 达到 高 密度 高 稳定 性 的 要 求 ， 基 板 要 求 表面 光 


两 项 高 科技 ， 一 是 要 制造 出 不 含 杂 质 的 极 细微 的 磁粉 ， 


-是 要 将 磁粉 均匀 


滑 平 整 不 可 有 任何 瑕 症 。 然 后 将 磁粉 溅 镀 到 基板 表面 上 ， 最 后 再 涂 上 保护 润滑 层 。 此 处 要 


地 溅 镀 上 去 。 


盘 片 每 面 粗 计 密度 为 32901120000 bit, 可 见 其 密度 相当 高 , 所 以 盘 片 不 可 有 任何 污染 ， 
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全 程 制造 均 须 在 Class 100 高 洁净 度 的 无 尘 室内 进行 , 这 也 是 硬盘 要 求 需 在 无 尘 室 才 能 拆 解 
维修 的 原因 。 因 为 磁头 是 利用 气流 漂浮 在 盘 片 上 ， 并 没有 接触 到 盘 片 ， 因 而 可 以 在 各 轨 间 
高 速 来 回 移动 ， 但 如 果 磁 头 距离 盘 片 太 高 读 取 的 讯号 就 会 大 弱 ， 太 低 又 会 磨 到 盘 片 表面 ， 
所 以 盘 片 表面 上 必须 相当 的 光滑 平整 ， 任 何 异物 和 尘埃 均 会 使 得 磁头 摩擦 到 磁 面 而 造成 数 
据 永 久 性 伤害 。 

3. 磁头 

硬盘 的 储存 原理 是 将 数据 用 其 控制 电路 通过 硬盘 读 写 头 (Read Write Head) 去 改变 磁盘 
表面 上 极 细 微 的 磁性 粒子 簇 的 N、S 极 性 来 加 以 储存 ， 所 以 这 几 片 磁盘 相当 重要 。 

磁盘 为 了 储存 更 多 数据 ， 必 须 将 磁性 粒子 簇 溅 镀 在 磁头 可 定位 的 范围 内 ， 并 且 磁 性 粒 
子 制 作 得 越 小 越 好 。 经 过 溅 镀 ， 磁 盘 表面 上 磁 粒 子 密度 相当 的 高 ， 而 硬盘 读 写 头 为 了 能 在 
磁盘 表面 高 速 来 回 移动 读 取 数据 则 需 漂浮 在 磁盘 表面 上 ， 但 是 不 能 接触 ， 接 触 就 会 造成 划 
伤 。 磁 头 如 果 太 高 的 话 读 取 到 的 信号 就 会 很 弱 ， 无 法 达到 高 稳定 性 的 要 求 ， 所 以 要 尽 可 能 
压低 ， 其 飞行 高 度 (Flying Height) 非 常 小 (可 比喻 成 要 求 一 架 波 音 747 客机 ， 其 飞行 高 度 须 
保持 在 1 米 的 距离 而 不 可 坠毁 )。 实 现 这 种 技术 ， 完 全 是 靠 磁盘 旋转 时 ， 在 盘 片 上 空 产生 气 
流 ， 利 用 空气 动力 学 使 磁头 其 浮 于 磁 片 上 空 。 磁 头 厚 度 如 图 3.3 所 示 。 


SÈ gam 手指 印 
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3.3 磁头 厚度 示意 图 


早期 的 硬盘 在 每 次 关机 之 前 需要 运行 一 个 被 称 为 Parking 的 程序 , 其 作用 是 让 磁头 回 到 
盘 片 最 内 圈 的 一 个 不 含 磁 粒 子 的 区 域 ， 叫 做 启 停 区 。 硬 盘 不 工作 时 ， 磁 头 停留 在 启 停 区 ， 
当 需 要 从 硬盘 读 写 数据 时 ， 磁 盘 就 先 开始 旋 转 。 旋 转速 度 达到 额定 速度 时 ， 磁 头 就 会 因 
片 旋转 产生 的 气流 抬 起 来 ， 这 时 磁头 才 向 盘 片 中 存放 数据 的 区 域 移动 。 盘 片 旋转 产生 的 
流 相 当 强 ， 足 以 托 起 磁头 ， 并 与 盘面 保持 一 个 微小 的 距离 。 这 个 距离 越 小 ， 磁 头 读 写 数据 
的 灵敏 度 就 越 高 ， 当 然 对 硬盘 各 部 件 的 要 求 也 就 越 高 。 

早期 设计 的 磁盘 驱动 器 可 使 磁头 保持 在 盘面 上 方 几 微米 处 飞行 ， 稍 后 的 一 些 设计 使 磁 
头 在 盘面 上 的 飞行 高 度 降 到 约 0.1hum 一 0.5hm， 现 在 的 水 平 已 经 达到 0.005hm 一 0.01um 
只 是 人 类 头发 直径 的 千 分 之 一 。 气 流 既 能 使 磁头 脱离 开盘 面 ， 又 能 使 它 保持 在 离 盘面 足够 
近 的 地 方 ， 非 常 紧密 地 随 着 磁盘 表面 呈 起 伏 运动 ， 使 磁头 飞行 处 于 严格 受 控 状态 。 磁 头 必 
须 飞行 在 盘面 上 方 ， 而 不 接触 盘面 ， 这 种 距离 可 避免 擦 伤 磁性 涂 层 ， 而 更 重要 的 是 不 让 磁 
性 涂 层 损 伤 磁头 。 但 是 ， 磁 头 也 不 能 离 盘 面 太 远 ， 否 则 就 不 能 使 盘面 达到 足够 强 的 磁化 ， 
难以 读 出 盘 上 的 数据 。 
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使 


内 或 者 磁头 与 盘 体 发 生 碰 撞 ， 就 有 可 能 造成 数据 丢失 形成 坏 块 ， 甚 至 造成 磁头 
cq 和 人 盘 体 的 损坏 。 所 以 ， 硬 盘 系 统 的 密封 一 定 要 可 靠 ， 在 非 专业 条 件 下 绝对 不 能 
开局 硬盘 密封 腔 ， 否 则 灰尘 进入 后 会 加 速 硬盘 的 损坏 。 另 外 ， 硬 盘 驱动 器 磁头 
的 寻 道 伺服 电机 多 采用 音 圈 式 旋转 或 直线 运动 步 进 电机 ,在 伺服 跟踪 的 调节 下 
精确 地 跟踪 盘 片 的 磁道 ， 所 以 硬盘 工作 时 不 要 有 冲击 碰撞 ， 搬 动 时 也 要 小 心 
轻 放 。 


* 硬盘 驱动 器 磁头 的 飞行 悬浮 高 度 低 、 速 度 快 ， 一 旦 有 小 的 尘埃 进入 硬盘 密封 腔 


4. 步 进 电机 


为 了 让 磁头 精确 定位 到 每 个 磁道 ， 用 普通 的 电机 达 不 到 这 样 的 精度 ， 必 须 用 步 进 电机 ， 
利用 精确 的 齿轮 组 或 者 音 圈 ， 每 次 旋转 可 以 仅仅 使 磁头 进行 微米 级 的 位 移 。 音 圈 电 机 则 是 


3.1.1 &Hh EPA 


精密 缠绕 的 钢丝 ， 置 于 磁场 之 中 ， 遂 过 控制 电流 的 流向 和 强度 ， 使 得 磁头 臂 在 磁场 作 
用 下 做 精确 的 步 进 。 


硬盘 上 的 数据 是 如 何 组 织 与 管理 的 呢 ? 硬盘 首先 在 逻辑 上 被 划分 为 磁道 、 柱 面 以 及 扇 
区 ， 其 结构 关系 如 图 3.4 所 示 。 


圆柱 由 0 开始 ， 从 外 图 向 内 图 编号 


FARR 
7 » 


P7 
SEED 


磁头 营 


磁头 可 以 在 所 有 同心 图 
t pn EIR., 
是 寻 道 操作 


贺 3.4_ 柱 面 和 盘 片上 的 磁道 


每 个 盘 片 的 每 个 面 都 有 一 个 读 写 磁 头 ， 磁 头 起 初 停 在 盘 片 的 最 内 轿 ， 即 线 速度 最 小 的 
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始 的 。 


也 方 。 这 是 一 个 特殊 区 域 ， 它 不 存放 任何 数据 ， 称 为 启 停 区 或 着 陆 区 (Landing Zone). Jf 
区 外 就 是 数据 区 。 在 最 外 圈 ， 离 主轴 最 远 的 地 方 是 0 磁道 ， 硬 盘 数 据 的 存放 就 是 从 最 外 圈 


那么 ， 磁 头 是 如 何 找到 0 磁道 的 位 置 呢 ? 从 图 3.4 中 可 以 看 到 ， 有 一 个 0 磁道 检测 器 ， 


它 来 完成 硬盘 的 初始 定位 。0 磁道 为 存放 着 用 于 操作 系统 启动 所 必需 的 程序 代码 ， 


PC 启动 后 BIOS 程序 在 加 载 任何 操作 系统 或 其 他 程序 时 ， 总 是 默认 从 磁盘 的 0 磁道 读 


因为 


取 程 
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序 代码 来 运行。 
四 0 磁道 是 如 此 重要 ， 以 致 于 很 多 硬盘 仅仅 因为 0 磁道 损坏 就 报废 了 ， 这 是 非 党 
TH. 


1H 


下 面 对 盘 面 、 磁 道 、 柱 面 和 扇 区 的 含义 逐一 进行 介绍 。 
1. 盘面 


硬盘 的 盘 片 一 般 用 铝 合金 材料 做 基 片 ， 高 速 硬盘 也 有 用 玻 现 做 基 片 的 。 玻 璃 基 片 更 容 
易 达到 所 需 的 平面 度 和 光洁 度 ， 而 且 有 很 高 的 硬度 。 磁 头 传动 装 iss Uia 
部 件 ， 通 常 有 两 种 类 型 的 传动 装置 ， ee te et 一 种 是 音 
电机 传动 装置 。 前 者 是 固定 推算 的 传动 定位 器 ， BE MER eps ER E 
上 。 磁 头 传 动 装置 以 很 小 的 等 距离 使 磁头 部 件 做 径 向 移动 ， 用 以 变换 磁道 。 
硬盘 的 每 一 个 盘 片 都 有 两 个 盘面 ， 即 上 、 下 盘面 。 每 个 盘面 都 能 利用 ， 都 可 以 存储 数 
据 ， 成 为 有 效 盘 片 。 每 一 个 这 样 的 有 效 盘 面 都 有 一 个 盘面 号 ， 按 从 上 到 下 的 顺序 从 0 开始 
依次 编号 。 在 硬盘 系统 中 ， 盘 面 号 又 叫 磁 头号 ， 因 为 每 一 个 有 效 盘 f 都 有 -个 对 应 的 读 
写 磁头 。 " i 盘 的 盘 片 组 在 2 一 14 片 不 等 ， 通 常 有 2 一 3 个 盘 片 ， 故 盘面 号 (磁头 号 ) 为 0 一 3 
或 0 一 5。 
2. 磁道 
磁盘 在 格式 化 时 被 划分 成 许多 同心 圆 ， 这 些 同 心 圆 轨迹 叫做 磁道 。 磁 道 从 最 外 圈 向 内 
图 从 0 开始 顺序 编号 。 硬 盘 的 每 一 个 盘面 有 300~1024 个 磁道 ， 新 式 大 容量 硬盘 每 面 的 磁 
道 数 更 多 。 这 些 同 心 圆 磁道 不 是 连续 记录 数据 ， 而 是 被 划分 成 一 段 段 的 圆 弧 ， 这 些 圆 弧 的 
角速度 一 样 。 由 于 径 向 长 度 不 一 样 ， 所 以 线 速度 也 不 一 样 ， 外 圈 的 线 速度 较 内 圈 的 线 速 度 
大 。 在 同样 的 转速 下 ， 外 圈 在 同样 时 间 段 里 ， 划 过 的 圆 弧 长 度 要 比 内 圈 划 过 的 圆 弧 长 度 大 ， 
因此 外 图 数据 的 读 写 要 比 内 图 快 。 
每 段 圆 弧 叫做 一 个 扇 区 ， 扇 区 从 1 开始 编号 ， 每 个 扇 区 中 的 数据 作为 一 个 单元 同时 读 
出 或 写 入 ， 是 读 写 的 最 小 单位 。 不 可 能 发 生 读 写 半 个 或 者 四 分 之 一 个 这 种 小 于 一 个 扁 区 的 
情况 ， 因 为 磁头 上 只 能 定位 到 某 个 肩 区 的 开头 或 者 结尾 ， 而 不 能 在 扇 区 内 部 做 定位 。 所 以 ， 
一 个 扇 区 内 部 的 数据 ,是 连续 流 式 记 录 的 。 一 个 标准 的 3.5 英寸 硬盘 盘面 通常 有 几 百 到 几 千 
条 磁道 。 磁 道 是 肉眼 看 不 见 的 ， 只 是 盘面 上 以 特殊 形式 磁化 了 的 一 些 磁化 区 。 划 分 磁道 和 
扇 区 的 过 程 ， 叫 做 低级 格式 化 ， 通 常 在 硬盘 出 厂 的 时 候 就 已 经 格式 化 完毕 了 。 相 对 于 低级 
格式 化 来 说 ， 高 级 格式 化 指 的 是 对 磁盘 上 所 存储 的 数据 进行 文件 系统 的 标记 ， 而 不 是 对 肩 
区 和 磁道 进行 磁化 标记 。 
3. 柱 面 
所 有 盘面 上 的 同一 磁道 ， 在 竖 直 方向 上 构成 一 个 圆柱 ， 通 常 称 作 柱 面 。 每 个 
磁头 由 上 而 下 从 0 开始 编号 。 数 据 的 读 写 按 柱 面 进行 ， 即 磁头 读 写 数据 时 首先 在 司 
内 从 0 磁头 开始 进行 操作 , 依次 向 下 在 同一 柱 面 的 不 同 盘面 ( 即 磁头 ) 上 进行 操作 。 只 
一 柱 面 所 有 的 磁头 全 部 读 写 完毕 后 磁头 才 转 移 到 下 一 柱 面 ， 因 为 选取 磁头 只 需 通 过 


大 话 存储 


网 络 存 储 系 统 原 理 精 解 与 最 佳 实践 


换 即 可 ， 而 选取 柱 面 则 必须 通过 机 械 切换 ， 即 寻 道 。 

电子 切换 相当 快 ， 比 使 用 机 械 将 磁头 向 邻近 磁道 移动 要 快 得 多 ， 所 以 数据 的 读 写 按 柱 
面 进行 ， 而 不 按 盘 面 进行 。 也 就 是 说 ， 一 个 磁道 写 满 数 据 后 ， 就 在 同一 柱 面 的 下 一 个 盘面 
来 写 。 一 个 柱 面 写 满 后 ， 才 移 到 下 一 个 柱 面 开始 写 数 据 ， 这 样 可 以 减少 寻 道 的 频繁 度 。 读 
写 数据 也 按照 这 种 方式 进行 ， 这 样 就 提高 了 硬盘 的 读 写 效率 。 
一 块 便 盘 驱动 器 的 圆柱 数 或 每 个 盘面 的 磁道 数 既 取决 于 每 条 磁道 的 宽窄 (也 与 磁头 的 大 
小 有 关 )， 也 取决 于 定位 机 构 所 决定 的 磁道 间 步 距 的 大 小 。 如 果 能 将 磁头 做 得 足够 精细 ， 定 
位 距离 足够 小 ， 那 么 就 会 获得 更 高 的 磁道 数 和 存储 容量 。 如 果 磁 头 太 大 ， 则 磁道 数 就 要 降 
低 以 容纳 这 个 磁头 ， 这 样 磁道 与 磁道 之 间 的 磁粉 将 无 法 利用 ， 浪 费 得 太 多 。 如 果 能 将 磁头 
做 成 单个 原子 的 精度 ， 那 么 存储 技术 就 会 发 生 革命 性 的 质变 。 


TA || 利用 原子 探 针 来 移动 物质 表面 的 原子 成 特定 形状 ， 这 种 技术 早已 实现 。 如 果 能 
【未 | 将 这 种 技术 应 用 到 数据 存储 领域 ， 则 存储 容量 和 速度 将 会 以 几何 倍数 上 升 ， 


1) 扇 区 头 标 

将 每 个 环形 磁道 等 距离 切割 ， 形 成 等 长 度 的 圆 弧 ， 每 个 圆 弧 就 是 一 个 户 区 。 划 分 扇 区 
的 目的 是 为 了 使 数据 存储 更 加 条 理化 ， 就 像 一 个 大 仓库 要 划分 更 多 的 房间 一 样 。 每 个 扇 区 
可 以 存放 512 个 字 节 的 数据 和 一 些 其 他 信息 。 一 个 扇 区 有 两 个 主要 部 分 ;存储 数据 地 点 的 
标识 符 和 存储 数据 的 数据 段 ， 如 图 3.5 所 示 。 


3.5_ 房 区 示意 图 


扇 区 头 标 包 括 组 成 扇 区 三 级 地 址 的 三 个 数字 。 
e 肩 区 所 在 的 柱 面 (磁道 ]。 
磁头 编号 。 
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e 扇 区 在 磁道 上 的 位 置 ， 即 扇 区 号 。 


柱 面 (Cylinder]) ， 磁 头 ([Headen 和 扇 区 (Secton] 三 者 简称 CHS， 所 以 扇 


CHS 地 址 。 


区 的 地 址 又 称 为 


磁头 通过 读 取 当 前 扇 区 的 头 标 中 的 CHS 地 址 ， 就 可 以 知道 当前 是 处 于 盘 片 上 的 哪个 位 


H, Wu 
CHS 编 


格式 化 方式 已 经 有 所 变化 ， 所 以 CHS 编 址 方式 已 经 不 再 使 用 ， 而 转 为 LBA 编 址 方式 。 


4 圈 还 是 外 圈 ， 哪 个 磁头 正在 读 写 (同一 时 刻 ， 只 能 有 一 个 磁头 在 读 写 ) 等 。 


由 方式 在 早期 的 小 容量 硬盘 中 非常 流行 ， 但 是 目前 的 大 容量 硬盘 的 设计 和 低级 
LBA 


编程 方式 不 再 划分 柱 面 和 磁头 号 ， 这 些 数据 由 硬盘 自身 保留 ， 而 磁盘 对 外 提供 的 地 址 全 部 


为 线性 的 地 


所 谓 线性 ， 指 的 是 把 磁盘 想象 成 只 有 一 个 磁道 ， 这 个 磁道 是 无 限 长 的 直线 ， 扇 


上 ， 即 LBA 地 址 。 


区 为 这 


条 直线 上 的 等 长 线段 ， 从 1 开始 顺序 编号 ， 直 到 无 限 远 。 显 然 ， 这 种 方式 屏蔽 了 柱 面 、 磁 


头 这 些 复杂 


的 东西 ， 向 外 提供 了 简单 的 方式 ， 所 以 非常 利于 编程 。 然 而 磁盘 中 的 控制 电路 


依然 要 找到 某 个 LBA 地 址 到 底 对 应 着 哪个 磁道 哪个 磁头 上 的 哪个 扇 区 ， 这 种 对 应 关系 保存 


ili 


在 磁盘 控制 上 


UR ROM 芯片 中 ， 磁 盘 初 始 化 的 时 候 载 入 缓存 中 以 便 随时 查询 。 


基于 CHS 编 址 方式 的 磁盘 最 大 容量 
磁头 数 (Heads) 表 示 硬 盘 总 共有 几 个 磁头 , 也 就 是 有 几 面 盘 片 , 最 大 为 255 
(用 8 个 二 进 制 位 存储 )。 
柱 面 数 (Cylinders) 表示 硬盘 每 一 面 盘 片上 有 多 少 条 磁道 , 最 大 为 1023( 用 
10 个 二 进 制 位 存储 )。 扇 区 数 (Sectors) 表示 每 一 条 磁道 上 有 多 少 遍 区, 最 
大 为 63( 用 6 个 二 进 制 位 存储 )。 
每 个 扇 区 一 般 是 512 个 字 节 ,理论 上 讲 这 不 是 必须 的 ,目前 很 多 大 型 磁盘 
阵列 所 使 用 的 硬盘 ， 由 于 阵列 控制 器 需要 做 一 些 诸如 校 验 信息 之 类 的 特 
丈 存 储 ， 这 些 磁 盘 都 被 格式 化 为 每 扇 区 520 字 节 。 
如 果 按照 每 扇 区 512 字 节 来 计算 ， 磁 盘 最 大 容量 为 255x1023x63x512/ 
1048576 = 8024 GB (1MB =1048576 Bytes )。 这 就 是 所 谓 的 8GB 容量 限制 
的 原因 。 但 是 随 着 技术 的 不 断 发 展 ，CHS 地 址 的 位 数 在 不 断 增加 ， 所 以 可 
寻 址 容量 也 在 不 断 增加 。 


磁盘 驱动 器 内 怎样 放下 255 个 磁头 呢 ? 这 是 不 可 能 的 。 目 前 的 硬盘 一 般 可 


Wu 样 算 来 ， 硬 盘 实际 容量 一 定 小 于 8GB T? 显然 不 是 这 样 的 。 所 谓 255 个 磁头 ， 
这 只 是 一 个 逻辑 上 的 说 法 ， 实 际 的 磁头 、 磁 道 、 户 区 等 信息 都 保存 在 硬盘 控制 
电路 的 ROM 芯片 中 。 而 每 条 磁道 上 真 的 最 多 只 有 64 个 扇 区 么 ? 当然 也 不 是 ， 
一 条 磁道 上 实际 的 肩 区 数 远 远大 于 64, 这 样 就 分 推 了 磁头 数 实际 少 于 255 个 所 
产生 的 “容量 减 小 ”。 所 以 ， 只 是 CHS 编 址 方式 沿袭 了 老 的 传统 ， 不 愿意 去 做 
修改 导致 的 。 而 这 种 沿袭 达到 了 一 定 容忍 程度 之 后 ， 最 终 导 致 LBA 编 址 方式 
替代 了 CHS 编 址 方式 。 
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头 标 中 还 包括 一 个 字段 ， 其 中 有 显示 扇 区 是 否 能 可 靠 存 储 数 据 ， 或 者 是 已 发 现 某 个 故 
障 因而 不 宜 使 用 的 标记 。 有 些 硬盘 控制 器 在 扇 区 头 标 中 还 记录 有 指示 字 ， 可 在 原 扇 区 出 错 
时 指引 磁头 跳 转 到 替换 扇 区 或 磁道 。 最 后 ， 扇 区 头 标 以 循环 元 余 校 验 CRC 值 作为 结束 ， 以 
供 控制 器 检验 扇 区 头 标的 读 出 情况 ， 确 保 准 确 无 误 。 

2) ” 扇 区 编号 和 交叉 因子 

给 扇 区 编号 的 最 简单 方法 是 1、2、3、4、5、6 等 顺序 编号 。 如 果 扇 区 按 顺 序 绕 着 磁道 
依次 编号 ， 那 么 磁盘 控制 电路 在 处 理 一 个 扇 区 的 数据 期 间 ， 可 能 会 因为 磁盘 旋转 太 快 ， 没 
等 磁头 反应 过 来 ， 已 经 超过 扇 区 间 的 间隔 而 进入 了 下 一 个 扇 区 的 头 标 部 分 ， 则 此 时 磁头 芳 
想 读 取 这 个 扇 区 的 记录 ， 就 要 再 等 一 图 ， 等 到 盘 片 旋转 回来 之 后 再 次 读 写 ， 这 个 等 待 时 间 
无 疑 是 非常 浪费 的 。 

显然 ， 要 解决 这 个 问题 ， 靠 加 大 扇 区 间 的 间隔 是 不 现实 的 ， 那 会 浪费 许多 磁盘 空间 。 
许多 年 前 ，IBM 的 一 位 杰出 工程 师 想 出 了 一 个 绝妙 的 办 法 ， 即 对 扇 区 不 使 用 顺序 编号 ， 而 
是 使 用 一 个 交叉 因子 (Interleave) 进 行 编号 。 交 叉 因 子 用 比值 的 方法 来 表示 ， 如 3:1 表示 磁 
道上 的 第 1 个 扇 区 为 1 号 扇 区 ， 跳 过 两 个 扇 区 即 第 4 个 扇 区 为 2 号 扇 区 ， 这 个 过 程 持续 下 
去 直到 给 每 个 物理 扇 区 编 上 逻辑 号 为 止 。 

例如 ， 每 磁道 有 17 个 扇 区 的 磁盘 按 2:1 的 交叉 因子 编号 就 是 1，10，2，11，3，12， 
4，13，5，14，6，15，7，16，8，17，9。 而 按 3:1 的 交叉 因子 编号 就 是 1，7，13，2， 
8，14，3，9，15，4，10，16，5，11，17，6，12。 当 设置 1:1 的 交叉 因子 时 ， 如 果 硬 
得 控制 器 处 理 信 息 足 够 快 ， 那 么 读 出 磁道 上 的 全 部 扇 区 只 需要 旋转 一 周 。 但 如 果 硬 盘 控 制 
器 的 处 理 动作 没有 这 么 快 ， 则 只 有 磁盘 所 转 的 圈 数 等 于 针对 这 个 磁道 的 交叉 因子 时 ， 才 能 
读 出 每 个 磁道 上 的 全 部 数据 。 将 交叉 因子 设 定 为 2:1 时 , 磁头 要 读 出 磁道 上 的 全 部 数据 ， 磁 
盘 只 需 转 两 周 。 如 果 2:1 的 交叉 因子 仍 不 够 慢 ， 这 时 可 将 交叉 因子 调整 为 3:1， 如 图 3.6 
所 示 。 


3.0 MFM 改进 型 交叉 因子 示意 图 


图 3.6 所 示 是 典型 的 MFM(Modified Frequency Modulation， 改 进 型 调频 制 编码 ] 硬 盘 ， 
每 磁道 有 17 个 扇 区 , 画 出 了 用 三 种 不 同 的 扇 区 交叉 因子 编号 的 情况 。 最 外 圈 的 磁道 [0 号 柱 
面 ] 上 的 扇 区 用 简单 的 顺序 连续 编号 ， 相 当 于 扇 区 交叉 因子 是 1:1。1 号 磁道 ( 柱 面 ] 的 扇 区 按 
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2:1 的 交叉 因子 编号 ， 而 2 号 磁道 按 3:1 的 扇 区 交叉 因子 编号 。 

在 早期 的 硬盘 管理 工作 中 ， 设 置 交叉 因子 需要 用 户 自己 完成 。 用 BIOS 中 的 低级 格式 化 
程序 对 硬盘 进行 低级 格式 化 时 ， 就 需要 指定 交叉 因子 ， 有 时 还 需要 设置 几 种 不 同 的 值 来 比 
较 其 性 能 ， 而 后 确定 一 个 比较 好 的 值 。 现 在 的 硬盘 BIOS 已 经 自己 解决 了 这 个 问题 ， 所 以 一 
股 低级 格式 化 程序 中 就 不 再 提供 这 一 设置 选项 了 。 
系统 将 文件 存储 到 磁盘 上 时 ， 是 按 柱 面 、 磁 头 、 扇 区 方式 进行 的 ， 即 最 先是 第 1 磁道 
的 第 1 磁头 下 (也 就 是 第 1 盘面 的 第 一 磁道 ] 所 有 的 扇 区 , 然后 是 同一 柱 面 的 下 一 磁头 , 直到 
整个 柱 面 都 存 满 。 系 统 也 是 以 相同 的 顺序 去 读 出 数据 。 读 数据 时 通过 告诉 磁盘 控制 器 要 读 
8 数据 所 在 的 柱 面 号 、 磁 头号 和 扇 区 号 (物理 地 址 的 三 个 组 成 部 分 ) 进 行 读 取 ( 现 在 都 是 直接 
H LBA 地 址 来 告诉 磁盘 所 要 读 写 的 扇 区 )。 磁 盘 控 制 电路 则 直接 将 磁头 部 件 步 进 到 相应 的 
j， 选 中 相应 磁头 ， 然 后 立即 读 取 当 前 磁头 下 所 有 的 扇 区 头 标 地 址 ， 然 后 把 这 些 头 标 中 
也 址 信息 与 期 待 检 出 的 磁头 和 柱 面 号 做 比较 。 如 果 不 是 要 读 写 的 扇 区 号 则 读 取 扇 区 头 标 
地 址 进行 比较 ， 直 到 相同 以 后 ， 控 制 电路 知道 当前 磁头 下 的 扇 区 就 是 要 读 写 的 扇 区 ， 然 后 
立即 让 磁头 读 写 数据 。 
如 果 是 读数 据 ， 控 制 电 路 会 计算 此 数据 的 ECC 码 ， 然 后 把 ECC 码 与 已 记录 的 ECC 码 相 
比较 ， 如 果 是 写 数 据 ， 控 制 电 路 会 计算 出 此 数据 的 ECC 码 ， 存 储 到 数据 部 分 的 末尾 。 在 控 
制 电 路 对 此 扇 区 中 的 数据 进行 必要 的 处 理 期 间 ， 磁 盘 会 继续 旋转 。 由 于 对 信息 的 后 处 理 需 
要 耗费 一 定 的 时 间 ， 在 这 段 时 间 内 磁盘 可 能 已 旋转 了 相当 的 角度 。 

交叉 因子 的 确定 是 一 个 系统 级 的 问题 。 一 个 特定 的 硬盘 驱动 器 的 交叉 因子 取决 于 磁盘 
控制 器 的 速度 、 主 板 的 时 钟 速度 、 与 控制 电路 相连 的 输出 总 线 的 操作 速度 等 。 如 果 磁 盘 的 
交叉 因子 值 太 高 ， 就 需 多 花 一 些 时 间 等 待 数 据 在 磁盘 上 存 入 和 读 出 。 相 反 ， 太 低 也 同样 会 
影响 性 能 。 

前 面 已 经 说 过 ， 系 统 在 磁盘 上 写 入 信息 时 ， 写 满 一 个 磁道 后 会 转 到 同一 柱 面 的 下 一 个 
磁头 ， 当 柱 面 写 满 时 ， 再 转向 下 一 柱 面 。 从 同一 盘面 的 一 个 磁道 转 到 另 一 个 磁道 ， 也 就 是 
从 一 个 柱 面 转 到 下 一 个 柱 面 ， 这 个 动作 叫做 换 道 。 在 换 道 期 间 磁盘 始终 保持 旋转 ， 这 就 会 
带 来 一 个 问题 : 假定 系统 刚刚 结束 了 对 一 个 磁道 前 一 个 扇 区 的 写 入 ， 并 且 已 经 设置 了 最 佳 
交叉 因子 比值 ， 现 在 准备 在 下 一 磁道 的 第 一 扇 区 写 入 ， 这 时 必须 等 到 磁头 换 道 结束 ， 让 磁 
头 部 件 重 新 定位 在 下 一 道上 。 如 果 这 种 操作 占用 的 时 间 超过 了 一 点 ， 尽 管 是 交叉 存 取 ， 磁 
头 仍 会 延迟 到 达 。 这 个 问题 的 解决 办 法 是 以 原先 磁道 所 在 位 置 为 基准 ， 把 新 的 磁道 上 全 部 
区 号 移动 约 一 个 或 几 个 扇 区 位 置 ， 这 就 是 磁头 扭 余 。 磁 头 扭 斜 可 以 理解 为 柱 面 与 柱 面 之 
的 交叉 因子 ， 已 经 由 生产 三 家 设置 好 ， 一 般 不 用 去 改变 它 。 磁 头 扭 斜 的 更 改 比较 困难 ， 
是 它们 只 在 文件 很 长 、 超 过 磁道 结尾 进行 读 出 和 写 入 时 才 发 挥 作用 ， 所 以 扭 斜 设置 不 正 
所 带 来 的 时 间 损 失 比 采用 不 正确 的 扇 区 交叉 因子 值 带 来 的 损失 要 小 得 多 。 交 叉 因 子 和 磁 
纽 斜 可 用 专用 工具 软件 来 测试 和 更 改 ， 更 具体 的 内 容 这 里 就 不 再 详 述 了 ， 上 毕竟 现在 很 多 
户 都 没有 见 过 这 些 参数 。 


B3 硬盘 低级 格式 化 程序 只 是 行使 有 关 磁盘 控制 器 的 专门 职能 来 完成 设置 任 
E 


HE 


mu 
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d. 由 于 这 个 过 程 可 能 会 破坏 低级 格式 化 的 磁道 上 的 全 部 数据 ， 现 在 也 极 少 采 
dT. 
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扇 区 号 存储 在 扇 区 头 标 中 ， 扇 区 交叉 因子 和 磁头 扭 斜 的 信息 也 存放 在 这 里 。 


肩 区 交叉 因子 由 写 入 到 扇 区 头 标 中 的 数字 设 定 ， 所 以 ， 每 个 磁道 可 以 有 自 


子 。 在 大 多 数 驱动 器 中 ， 所 有 磁道 都 有 相同 的 交叉 因子 。 但 有 时 因为 操作 上 的 原因 ， 也 可 


己 的 交叉 因 


能 导致 各 磁道 有 不 同 的 扇 区 交叉 因子 。 比 如 在 交叉 因子 重 置 程序 工作 时 ， 由 于 断 电 或 人 为 
中 断 就 会 造成 一 些 磁道 的 交叉 因子 发 生 了 改变 ， 而 另 一 些 磁道 的 交叉 因子 没有 改变 。 这 种 


不 一 致 性 对 计算 机 不 会 产生 不 利 影响 ， 只 是 有 最 佳 交叉 因子 的 磁道 要 比 其 他 磁道 的 工作 速 


度 更 快 。 
3.1.2 硬盘 控制 电路 简介 


我 们 在 了 解 了 磁盘 的 结构 之 后 ， 知 道 了 磁盘 是 靠 磁性 子 来 存放 数据 的 ， 那 么 有 人 就 会 
问 了 : 一 个 磁性 子 到 底 是 什么 概念 ? 是 一 个 磁性 分 子 么 ? 不 是 ， 这 个 “ 子 ”的 概念 是 指 一 


个 区 域 ， 这 个 区 域 存在 若干 磁性 分 子 ， 这 些 分 子 聚 集 到 一 起 ， 直 到 磁头 可 以 感 
性 为 止 。 所 以 和 磁带 一 样 ， 磁 记录 追根 到 底 就 是 利用 线性 中 的 段 。 根 据 这 一 段 
片 分 子 是 N 极 还 是 S 极 ， 然 后 将 其 转换 成 电信 号 ， 也 就 产生 了 字 节 ， 从 而 记录 
然 只 有 存储 介质 还 远 远 不 够 ， 要 让 数据 可 以 被 读 出 ， 被 写 入 ， 还 要 有 足够 的 速 
满足 人 们 的 需求 ， 这 就 需要 配套 的 电路 了 。 

图 3.7 给 出 一 个 完整 详细 的 硬盘 电路 示意 框图 。 
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便 盘 电 路 由 14 个 部 分 组 成 。 

Buffer Memory: 绥 冲 区 存储 器 。 

Interface Controller: 接口 控制 器 。 

Micro-Controller: 微 控 制 器 ， 缩 写 为 MCU。 

PRML Partial-Response Maximum-Likelihood Read Channel。 
Timing ASIC: 时 间 控 制 专用 集成 电路 。 

Servo Demodulator: 伺服 解 调 器 。 

Digital Signal Processor(DSP): 数字 信号 处 理 器 。 

Preamp: 预 放 大 器 。 

Positioning Driver: 定位 驱动 器 。 
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VCM(Voice Coil Motor): 音 圈 电动 机 。 
Magnetic Media Disk: 人 磁 介 质 盘 片 。 
SpindleMotor: 主轴 电机 。 
Spindle Driver: 主轴 驱动 器 。 

e  Read/Write Head: 读 / 写 磁头 。 

实际 电路 不 会 有 这 么 多 一 片 一 片 的 独立 芯片 ， 硬 盘 生 产 厂 家 在 设计 电路 时 都 是 选取 高 
度 集成 的 IC 芯片 ,这样 既 减 小 了 体积 又 提高 了 可 靠 性 。 当 然 这 也 正 是 芯片 厂商 努力 的 目标 。 

大 家 可 以 看 到 图 3.7 中 的 Spindle Driver 与 Positioning Driver 这 两 部 分 用 虚线 圈 了 起 
来 , 并且 标注 了 Servo/MSC Controller Combination 字样 .其 中 MSC 是 Motor Speed Control 
的 缩写 ， 意 思 是 伺服 /电机 速度 控制 器 组 合 。 我 们 现在 能 看 到 的 硬盘 电路 板 中 就 有 这 么 一 块 
合并 芯片 。 


3.1.3 磁盘 的 10 单位 


到 此 ， 大 家 应 该 对 磁盘 的 构造 有 所 理解 了 。 磁 盘 读 写 的 时 候 都 是 以 扇 区 为 最 小 寻 址 单 
位 的 ， 也 就 是 说 不 可 能 往 某 某 扇 区 的 前 半 部 分 写 入 某 某 数据 。 一 个 扇 区 的 大 小 是 512 个 字 
节 ， 每 次 磁头 连续 读 写 的 时 候 ， 只 能 以 扇 区 为 单位 ， 即 使 一 次 只 写 了 一 个 字 节 的 数据 ， 那 
么 下 一 次 就 不 能 再 向 这 个 扇 区 剩余 的 部 分 接着 写 入 ， 而 是 要 寻找 一 个 空房 区 来 写 。 

对 于 磁盘 来 说 ， 一 次 磁头 的 连续 读 或 者 写 叫 做 一 次 10。 


n ik  HDCTAHRRORGC . 


I0 这 个 概念 ， 充 分 理解 就 是 输入 输出 。 我 们 知道 从 最 上 层 到 最 下 层 ， 层 次 之 间 存 在 着 
太 多 的 接口 ， 这 些 接口 之 间 每 次 交 :五 都 可 以 称 作 一 次 10， 也 就 是 广义 上 的 10。 比 如 卷 管理 
程序 对 磁盘 控制 器 驱动 程序 API 所 作 的 10， 一 次 这 种 10 可 能 要 产生 针对 磁盘 的 N 个 10， 
也 就 是 说 上 层 的 10 是 稀 朴 的 、 简 单 地 ， 越 往 下 层 走 越 密集 、 越 复杂 


-二 这 就 像 宏观 和 微观 一 样 ， 虽 然 说 牛顿 力学 很 经 典 ， 却 不 能 解释 量子 力学 。 至 
今 量子 理学 也 没有 人 能 充分 理解 其 实际 意义 ， 目 前 只 不 过 是 数学 上 的 一 堆 


S NERO 


除了 卷 管 理 程序 之 外 ,凌驾 于 卷 管理 之 上 的 文件 系统 对 卷 的 10, sb LEGE SER ( 
同样 ， 上 层 应 用 对 文件 系统 API 的 10 是 更 加 简单 ， 只 需 几 名 代码 、 几 个 调用 就 可 以 了 。 
如 0pen0) 某 个 文件 ，Seek0 到 某 个 位 置 ，Write0 一 段 数据 ，Close 0 这 个 文件 等 ， i 
IO. 。 而 就 是 这 一 次 10， 可 能 对 应 文件 系统 到 卷 的 N 个 10， 对 应 卷 到 控制 器 驱动 的 N 3€ N 
个 10， 对 应 控制 器 对 最 终 磁 盘 的 NxNxN 个 10。 总 之 ， 磁 盘 一 次 10 就 是 磁头 的 一 次 连续 读 
或 者 写 。 而 一 次 连续 读 或 者 写 的 过 程 ， 不 管 读 写 了 几 个 扇 区 ， 肩 区 剩余 部 分 均 不 能 再 使 
这 无 疑 是 比较 浪费 的 ， 但 是 没有 办 法 ， 总 得 有 个 最 小 单位 。 
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关于 最 小 单位 一 一 龟 免 赛跑 悖 论 

龟 在 兔子 前 面 100 米 ， 免 子 的 速度 是 龟 的 10 倍 。 龟 对 兔子 说 : “我 们 同时 起 跑 ， 你 沿 
直线 追 我 ， 你 永远 也 追 不 上 我 ”。 这 个 结论 猛 一 看 ,会 觉得 荒唐 至 极 ! 可 是 龟 分 析 了 : “ 免 
子 跑 到 100 米 我 当前 的 位 置 时 ， 我 同时 也 向 前 跑 了 10 米 。 然 后 兔子 跑 了 10 米 的 时 候 ， 而 
我 同时 也 向 前 跑 了 1 米 。 它 再 追 1 米 ， 而 我 又 跑 了 0.1 米 。 依 此 类 推 ， 免 子 永 远 追 不 上 我 。 
大 家 看 到 这 里 就 糊涂 了 ， 这 么 一 分 析 确实 是 追 不 上 ， 但 实事 却 是 能 追 上 。 那 么 问题 出 在 哪 
里 呢 ? 

我 们 分 析 一 下 ， 假 如 兔子 速度 是 每 秒 100 米 ， 龟 速度 每 秒 10 米 。 首 先 兔子 追 出 100 米 
时 候 ， 用 时 1 秒 ， 此 时 龟 在 兔子 前 方 10 米 处 。 然 后 兔子 再 追 出 10 米 ， 用 时 0.1 秒 ， 此 时 龟 
在 前 方 1 米 处 。 接 着 兔子 再 追 出 1 米 ， 用 时 0.01 秒 ， 学 过 小 学 算术 的 都 能 算出 来 ， 免 子 掉 
入 了 一 个 无 限 循环 小 数 中 ， 什 么 时 候 结束 了 循环 ， 才 能 追 上 龟 。 那 么 这 就 悖 论 了 ， 小 数 是 
无 限 循环 的 ， 这 到 底 是 多 少 秒 呢 ? 如 果 时 间 可 以 以 无 限 小 的 单位 延伸 ， 那 么 兔子 确实 永远 
也 追 不 上 龟 。 虽 然 时 间 确 实 是 连续 的 ， 时 间 没 有 理由 不 连续 ， 时 间 是 一 个 思想 中 的 概念 ， 
时 间 不 是 物质 ， 所 以 时 间 是 惟一 能 连续 的 东西 ， 既 然 时 间 是 无 限 的 、 连 续 的 ， 那 么 兔子 按 
理 说 追 不 上 龟 了 ， 但 是 实事 确实 能 追 上 ， 但 有 一 个 元 素 我们 忽略 了 ， 它 就 是 长 度 的 最 小 单 
位 ! l ! 仔细 分 析 一 下 ， 时 间 和 长 度 是 对 应 的 ， 时 间 可 以 无 限 小 ， 那 么 这 个 无 限 小 的 时 间 
也 应 该 对 应 无 限 小 的 长 度 ， 这 样 悖 论 到 这 里 就 解决 了 ! 因为 存在 一 个 长 度 的 最 小 单位 ， 而 
没有 无 限 小 ! 也 就 是 说 ， 当 兔子 走 的 长 度 是 最 小 长 度 时 龟 就 黔 驴 技 穷 了 ， 因 为 不 可 能 再 行 
走 比 这 长 度 更 小 的 距离 了 ， 那 么 兔子 自然 就 超过 了 龟 。 而 这 个 时 间 是 很 短暂 的 ， 它 发 生 在 
有 限 个 1 的 时 间 点 上 。 至 于 这 个 最 小 长 度 ， 据 说 有 人 计算 出 来 了 ， 它 可 能 是 一 个 原子 的 长 
度 ， 也 可 能 比 这 还 小 。 目 前 看 来 ， 我 们 移动 的 时 候 ， 最 小 似乎 也 不 可 能 移动 半 个 原子 的 
距离 ! 

芝 诺 悖 论 ( 龟 免 赛跑 悖 论 ) 证 明了 ， 对 于 我 们 目前 可 观察 到 的 世界 来 说 ， 是 有 一 个 最 小 距 
离 单位 的 。 如 果 我 们 以 这 个 结论 为 前 提 ， 就 可 以 推翻 芝 诺 悖 论 了 。 假 设 这 个 距离 最 小 单位 
是 一 块 石头 的 长 度 。 开始， 兔子 在 乌龟 后 面相 隔 2 块 石头 的 距离 ， 同 样 兔子 的 速度 是 乌龟 
的 2 倍 ， 按 照 量 子 距离 理论 ， 这 个 2 倍速 度 ， 不 是 无 限 可 分 的 ， 那 么 我 们 表达 这 个 2 倍速 
的 时 候 ， 应 该 这 么 说 : 兔子 每 前 进 2 块 石头 的 时 间 ， 乌 龟 只 能 前 进 一 块 石头 的 距离 ， 而 不 
可 能 前 进 半 块 石头 。 这 样 的 前 提 下 ， 连 小 学 生 都 可 以 计算 兔子 何 时 追赶 上 乌龟 了 。 


3.2 ”磁盘 的 通俗 演绎 


想象 一 张 很 大 很 大 的 白 纸 ， 你 要 在 上 面 写 日 记 。 当 你 写 满 这 张 白 纸 之 后 ， 如 果 某 天 想 
查看 某 条 日 记 ， 即 无 疑 将 是 个 焉 梦 ， 因 为 白 纸 上 没有 任何 格子 或 行 分 割 线 等 ， 你 只 能 通过 
一 行 一 行 地 读 取 日 记 ， 搜 索 你 要 查看 的 那 条 记录 。 如 果 给 白 纸 打上 格子 或 行 分 割 线 ， 那 么 
不 但 书写 起 来 不 会 凌乱 ， 而 且 还 工整 。 

那么 对 于 一 张 上 面 布 满 磁性 介质 的 盘 片 来 说 ， 想 要 在 它 上 面 记录 数据 ， 如 果 不 给 它 打 
格子 划 线 的 话 ， 无 疑 就 无 法 达到 块 级 的 记录 。 所 以 在 使 用 之 前 ， 需 要 将 其 低级 格式 化 ， 也 
就 是 划分 扇 区 (格子 )。 我 们 见 过 稿 纸 ， 上 面 的 格子 是 方形 阵列 排 布 的 ， 原 因 很 简单 ， 因 为 稿 
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纸 是 方形 的 。 那 么 对 于 圆 形 来 说 , 格子 应 该 怎么 排 布 呢 ? 答案 是 同心 圆 排 布 , 一 个 同心 圆 ( 磁 
道 ]， 就 类 似 于 稿 纸 上 的 一 行 ， 而 这 一 行 之 内 又 可 以 排列 上 很 多 格子 ( 扇 区 )。 每 个 盘 片 上 的 
行 密度 、 每 行 中 的 格子 ( 扇 区 ) 密 度 都 有 标准 来 规定 ， 就 像 稿 纸 一 样 。 

1] 我 们 把 稿 纸 放 入 打印 机 。 

11 打印 机 的 打印 头 按 照 格 子 的 距离 精确 地 做 着 位 移 ， 并 不 停 地 喷 出 墨水 ， 将 字体 打 


入 纸张 上 的 格子 里 。 

2】 一 旦 一 行 打 满 ， 走 纸 轮 精 确 地 将 稿 纸 位 移 到 下 一 行 ， 打 印 头 在 这 一 行 上 水 平 位 移 
打 满 格子 。 

31 走 纸 轮 竖 直 方向 位 移 ， 打 印 头 水 平方 向 位 移 ， 形 成 了 方形 扫描 阵列 ， 能 够 定位 到 
整 张 纸 上 的 每 个 格子 。 


同样 ， 我 们 把 圆 形 盘 片 安装 到 一 个 电机 ( 走 纸 轮 ] 上 ， 然 后 在 盘 片 上 方 加 一 个 磁头 (打印 
喷头 )。 但 是 和 打印 机 不 同 的 是 ,做 换行 这 个 动作 不 是 由 走 纸 轮 来 完成 ,而 是 由 磁头 来 完成 ， 
称 作 径 ( 半 径 ) 向 扫描 ， 也 就 是 在 不 同 同心 圆 上 做 切换 (换行 )。 同 样 做 行内 扫描 这 个 动作 是 由 
电机 ( 走 纸 轮 ] 而 不 是 磁头 (打印 头 ) 来 完成 ， 称 作 线 扫 描 ( 沿 着 同心 圆 的 圆周 进行 扫描 )] 。 
形成 这 种 角色 倒置 的 原因 ， 很 显然 是 由 圆 形 的 特殊 性 决定 的 。 做 圆周 运动 毕竟 比 做 水 
平 竖 直 运动 要 复杂 ， 如 果 让 磁头 沿 着 同心 圆 做 线 扫描 ， 则 需要 将 磁头 放 在 一 个 可 以 旋转 的 
部 件 上 ， 此 时 磁头 动 而 盘 片 不 动 ， 可 以 达到 相同 的 目的 ， 但 是 技术 难度 就 复杂 多 了 。 因 为 
磁头 上 有 电路 连接 着 磁头 和 芯片 。 如 果 让 磁头 高 速 旋转 ， 磁 头 动 而 芯片 不 动 ， 电 路 的 连通 
性 怎么 保证 ?不 如 让 盘 片 转动 来 得 干脆 利索 。 
和 打印 机 一 样 ， 定 位 到 某 个 特定 的 格子 之 后 ， 磁 头 开 始 用 磁性 来 对 这 个 格子 中 的 每 个 
人 磁 粒 子 区 做 磁化 操作 ,每 个 磁极 表示 一 个 0 或 者 1 状态 。 每 个 格子 规定 可 以 存放 4096 位 这 
种 状态 , 也 就 是 512 个 字 节 (很 多 供 大 型 机 使 用 的 磁盘 阵列 上 的 磁盘 是 用 520 5759 4 Bà 
区 )。 这 就 像 打印 机 在 一 个 格子 再 次 细 分 ， 形 成 24 X24 点 阵 ， 每 个 坐标 上 的 一 个 点 都 对 应 
-种 色彩 。 只 不 过 对 于 磁盘 来 说 只 有 0 或 者 1， 而 对 于 打印 机 来 说 , 可 以 是 各 种 色彩 中 的 一 
种 (黑白 打印 机 也 只 有 黑 或 者 白 两 种 状态 )。 
磁盘 的 扇 区 中 没有 点 阵 ， 一 个 扇 区 可 以 把 它 看 作 是 线性 的 。 它 没有 宽 ， 只 有 长 ， 记 录 
是 顺序 的 ， 不 能 像 打 印 机 那样 可 以 定位 到 扇 区 中 的 某 个 点 。 然 而 ， 磁 盘 比 打印 机 有 先天 的 
优势 。 打 印 机 只 能 从 头 到 尾 打 印 ， 而 且 打印 之 后 不 能 更 改 。 磁 盘 却 可 以 对 任意 的 格子 进行 
写 入 、 读 取 和 更 改 等 操作 。 打 印 机 的 走 纸 轮 和 打印 喷头 移动 起 来 很 慢 ， 而 且 嘎 嘎 作 响 ， 听 
了 都 费劲 。 而 磁盘 的 转速 则 快 很 多 ， 目 前 可 以 达到 每 分 钟 15000 转 。 磁 头 的 位 移动 作 也 非 
党 


常 快 ， 它 使 用 步 进 电 机 来 精确 地 换行 ( 换 磁道 ]。 但 是 相对 于 盘 片 的 转动 而 言 ， 步 进 的 速度 就 
ET, 所 以 制约 磁盘 性 能 的 主要 因素 就 是 这 个 步 进 速度 (换行 或 者 换 道 速 度 )， 也 就 是 寻 道 
速度 


如 果 从 最 内 同心 圆 换 到 最 外 同心 圆 ， 耗 费 的 时 间 无 疑 是 最 长 的 。 目 前 磁盘 的 平均 寻 道 
速度 最 高 可 以 达到 5ms 多 ， 不 同 磁盘 寻 道 速度 不 同 ， 普 通 IDE 磁盘 可 能 会 超过 10ms。 有 
了 这 个 磁盘 记录 模型 ， 我 们 就 该 研究 怎么 将 这 个 模型 抽象 虚拟 化 出 来 ， 让 向 磁盘 写 数据 的 
人 感觉 使 用 起 来 非常 方便 。 就 像 打 印 机 一 样 ， 点 一 下 打印 ， 一 会 纸 就 路 足 地 往外 冒 。 下 面 
还 是 要 一 层 一 层 地 来 做 ， 不 能 直接 就 抽象 到 这 么 高 的 层次 。 

首先 ， 要 精确 寻 址 每 个 格子 就 一 定 需要 给 每 个 格子 一 个 地 址 。 早 期 的 磁盘 都 是 用 “ 盘 
片 ， 磁 道 ， 扁 区 ”来 寻 址 的 ， 一 个 磁盘 盒子 中 可 能 不 止 一 片 盘 片 ， 就 像 一 舍 稿 纸 中 有 好 几 
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张 纸 一 样 。 一 个 盘 片 上 的 某 一 “ 行 ” 也 就 是 某 个 磁道 ， 应 该 可 以 再 区 分 。 一 个 磁道 上 的 某 
个 扇 区 也 可 以 区 分 。 到 这 ， 就 是 最 终 可 寻 址 的 最 小 单位 了 ， 而 不 能 再 精确 定位 到 一 个 扇 区 
中 的 某 个 点 了 。 磁 头 只 能 顺序 地 写 入 或 者 读 取出 这 些 点 ， 而 不 能 只 更 新 或 者 读 取 其 中 某 个 
点 。 也 就 是 说 磁头 只 能 一 次 成 批 写 入 或 者 读 取 出 一 个 扇 区 的 内 容 ， 而 不 能 读 写 半 个 或 者 四 
分 之 一 个 扇 区 的 内 容 。 
后 来 的 扇 区 寻 址 体系 变 了 ， 因 为 后 来 的 磁盘 中 每 个 磁道 的 扇 区 数目 不 同 了 ， 外 圈 由 于 
周 长 比 较 长 ， 所 以 容纳 的 扇 区 可 以 很 多 ， 干 脆 采 用 了 逻辑 地 址 来 对 每 个 扇 区 编 址 ， 将 具体 
的 盘 片 、 磁 道 和 扇 区 ， 抽 和 象 成 LBA(logical block address， 顺 序 编 址 )。LBA1 表示 0 号 盘 片 

磁 

抽 


0 号 磁道 的 0 号 扇 区 。 依 此 类 推 ，LBA 地 址 到 实际 的 盘 片 、 磁 道 和 扇 区 地 址 的 映射 工作 
盘 内 部 的 逻辑 电路 来 查询 ROM 中 的 对 应 表 而 得 到 ， 这样 就 完成 了 物理 地 址 到 逻辑 地 址 
象 、 虚 拟 和 映射 。 
寻 址 问题 解决 之 后 ， 就 应 该 考虑 怎么 向 磁盘 发 送 需 要 写 入 的 数据 了 。 针 对 这 个 问题 ， 
人 们 抽象 出 一 套 接口 系统 ， 专 门 用 于 计算 机 和 其 外 设 交互 数据 ， 称 为 SCSI 接口 协议 ， 即 小 
型 计算 机 系统 接口 。 
我 们 举 个 例子 来 说 明 ， 比 如 某 时 刻 要 向 磁盘 写 入 512 字 节 的 数据 ， 磁 盘 控制 器 先 向 磁 
盘 发 一 个 命令 , 表明 要 准备 做 10 操作 了 ,而 且说 明了 附带 参数 (是 否 启 用 磁盘 缓存 、 完 成 后 
是 否 中 断 通 知 CPU 等 )， 磁 盘 应 答 说 可 以 进行 ， 控 制 器 立即 将 所 要 10 的 类 型 ( 读 / 写 ) 和 肩 区 
的 起 始 地 址 以 及 随后 扇 区 的 数量 (长 度 ) 发 送 给 磁盘 ， 如 果 是 写 10， 则 随后 还 要 将 需要 写 入 
的 数据 发 送 给 磁盘 ， 磁 盘 将 这 块 数据 顺序 写 入 先前 通告 的 扇 区 中 。 


新 的 SCSI 标准 中 有 一 种 促进 IO 效率 的 新 的 方式 ， 即 Skip Mask IO 模式 。 如 

果 有 两 个 IO， 二 者 IO 的 目标 扇 区 段 被 隔 开 了 一 小 段 ， 比 如 第 一 个 写 IO 的 目 

国标 为 从 1000 开始 的 随后 128 扁 区 ， 第 二 个 写 IO 的 目标 则 为 1500 开始 的 随后 
128 扇 区 ， 可 以 合并 这 两 个 IO 为 一 个 针对 1000 开始 的 随后 728 个 扇 区 的 IO， 
控制 器 将 这 条 指令 下 发 到 磁盘 之 后 ， 还 会 立即 发 送 一 个 Mask 帧 ， 这 个 帧 中 包 
含 了 一 串 bit 流 ， 每 一 位 表示 一 个 扇 区 ， 此 位 为 1， 则 表示 进行 该 扇 区 的 IO， 
为 0， 则 表示 跨 过 此 扇 区 ， 不 进行 IJO。 这 样 ， 多 了 这 串 很 小 的 bit 流 ， 却 能 省 
下 一 轮 额 外 的 IO 开销 。 


I- IB) 
ER 


SCSI 接口 完成 了 访问 磁盘 过 程 的 虚拟 化 和 抽象 ， 极 大 的 简化 了 访问 磁盘 的 过 
| 程 ， 它 屏蔽 了 磁盘 内 部 结构 和 逻辑 ,使 得 控制 器 只 知道 LBA 是 一 个 房间 ， 有 什 
么 数据 就 给 出 地 址 ， 然 后 磁盘 就 会 将 数据 写 入 这 个 地 址 对 应 的 房间 ， 读 取 操 作 
也 一 样 。 


3.8 ”磁盘 相关 高 层 技术 


3.3.1 磁盘 中 的 队列 技术 
想象 有 一 个 包含 10000 个 同心 圆 的 转盘 在 旋转 ， 现 在 有 2 个 人 在 转盘 外 面 ， 有 一 个 机 
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械 手 臂 可 以 将 物体 放 到 任何 一 个 同心 圆 上 去 。 现 在 ， 第 一 个 人 想到 半径 最 小 的 同心 圆 pr zx 
而 另外 一 个 人 却 想 到 半径 最 大 的 同心 圆 上 去 ， 这 可 让 机 械 手 臂 犯 了 难 ， 机 械 手臂 只 能 按 
顺序 ， 先 照顾 第 一 个 人 的 要 求 。 它 首先 寻 道 到 最 内 侧 同心 圆 ， 然 后 转盘 旋转 到 bine 
将 这 个 人 放 到 轨道 上 ， 随 后 立即 驱动 磁头 臂 到 最 外 侧 的 圆 ， 再 将 第 二 个 人 放 上 去 。 这 期 间 
的 主要 时 间 都 用 于 从 内 侧 到 外 测 的 换 道 过 程 了 ， 非 常 浪费 。 
这 只 是 2 个 人 的 NS. 那么 如 果 有 多 个 人 ， 比 如 3 个 人 先后 告诉 机 械 手 臂 ， 第 一 个 人 
说 要 放 到 最 内 侧 的 圆 上 ， 第 二 个 人 说 要 放 到 最 外 侧 的 圆 上 ， 第 三 个 人 要 放 到 最 内 侧 的 圆 上 。 
如 果 这 由 候 机 械 手 璧 还 是 按照 顺序 来 操作 ， 那 么 中 间 就 会 多 了 一 次 无 谓 的 换 道 操作 ， 
极其 浪费 。 所 以 机 械 和 手臂 自作 主张 ， 在 送 完 第 一 个 人 后 ， 它 没有 立即 处 理 第 二 个 人 的 请 求 ， 
而 是 在 脑海 中 算计 ， 它 看 第 三 个 人 也 要 求 到 内 侧 圆 上 ， 而 它 自己 此 时 也 恰好 正在 内 侧 圆 上 
何不 趁 此 撒 带 第 三 个 人 呢 ? 所 以 磁头 跳 过 第 二 个 人 的 请 求 ， 先 把 第 三 个 人 送 到 目的 地 ， " 
后 再 换 道 送 第 二 个 人 。 
因为 磁头 算计 用 的 时 间 比 来 回 换 道 快 得 多 ， 所 以 这 种 排队 技术 大 大 提高 了 读 写 效率 。 
这 种 例子 还 有 很 多 ， 比 如 电梯 就 是 个 很 好 的 例子 。 实 现 队 列 功能 的 程序 控制 代码 是 存放 在 
磁盘 控制 电路 芯片 中 的 ， 而 不 是 主板 上 的 磁盘 控制 器 上 。 也 就 是 说 ， 由 控制 器 发 给 磁盘 指 
令 ， 然 后 由 磁盘 自己 的 DSP 固化 电路 或 者 由 磁盘 上 的 微 处 理 器 载 入 代码 从 而 执行 指令 排队 
功能 。 
但 是 一 个 巴掌 拍 不 响 ， 排 队 必须 也 要 由 磁盘 控制 器 来 支持 ， 所 谓 的 支持 就 是 说 ， 如 果 
磁盘 擅自 排队 ， 不 按照 控制 器 发 送 过 来 的 顺序 一 条 一 条 执行 指令 ， 则 在 读 出 数据 之 后 ， 由 
于 步调 和 控制 器 期 望 的 不 一 致 ， 预 先 读 出 的 数据 只 能 先 存 放 到 磁盘 驱动 器 的 缓存 中 ， 等 待 
控制 器 主动 来 取 。 因 为 控制 器 给 磁盘 发 送 的 读 写 数据 的 指令 ， 有 可 能 是 有 先后 顺序 的 ， 如 
果 磁 盘 擅自 做 了 排队 ， 将 后 来 发 送 的 指令 首先 执行 ， 那 么 读 出 的 数据 就 算 传 送 给 Y uis 
制 器 ， 也 会 造成 错乱 。 
所 以 ， 要 实现 排队 技术 ， 仅 仅 有 磁盘 驱动 器 自身 是 不 够 的 ， 还 必须 在 磁盘 控制 器 ( 指 主 
板 上 的 磁盘 控制 , 而 不 是 磁盘 本 身 的 控制 电路 ) 电 路 中 国 化 代码 处 理 排 队 , 和 磁盘 达成 一 致 。 
或 者 不 使 用 固化 代码 方式 ， 而 是 修改 磁盘 控制 器 驱动 程序 ， 加 入 处 理 排 队 的 功能 从 而 配合 
磁盘 驱动 器 。 


157 Intel 在 WinHEC 2003 会 议 上 发 布 了 高 级 主机 控制 器 接口 0.95 版 规范 (Advanced 
Host Controller Interface，AHCI)， 为 驱动 程序 和 系统 软件 提供 了 发 现 并 实施 命 
Uu 令 队 列 、 热 插 拔 及 电源 管理 等 高 级 SATA 功能 的 标准 接口 。 这 个 接口 就 是 在 新 
的 控制 器 硬件 之 上 的 驱动 层面 提供 一 层 接口 ， 解决 了 磁盘 控制 器 不 支持 硬盘 驱 
动 器 自身 的 排队 这 个 问题 。 


3.3.2 无 序 传 输 技 术 

还 有 一 种 提高 磁盘 性 能 的 技术 ， 叫 做 无 序数 据 传输 。 也 就 是 说 ， 控 制 器 发 出 一 条 指令 
要 求 读 取 某 些 扇 区 中 的 内 容 ， 磁 盘 可 以 不 从 数据 所 在 的 初始 扇 区 开始 读 ， 而 是 采取 就 近 原 
则 。 比 如 ， 磁 头 恰 好 处 于 待 读 取 数 据 的 尾部 ， 此 时 如 果 等 待 磁盘 旋转 到 磁头 位 于 这 块 数据 
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的 头 部 时 磁头 才 开 始 读 ， 那 么 时 间 就 被 白白 地 浪费 了 。 如 果 磁 头 按照 能 读 多 少 先 读 多 少 的 
原则 ， 在 尾部 时 就 先 读 出 尾部 的 数据 ， 然 后 立即 发 给 控制 器 ， 控 制 器 立即 通过 DMA 将 数据 
放 到 内 存 ， 等 磁盘 转 到 数据 块头 部 时 再 读 出 剩余 的 部 分 发 给 控制 器 ， 这 样 就 避免 了 时 间 的 
浪费 。 然 而 ， 这 种 技术 同样 也 要 由 磁盘 控制 器 来 支持 ， 或 是 通过 控制 器 硬件 ， 或 是 通过 驱 
动 程序 。 

通过 指令 排队 和 无 序 传送 可 以 最 大 化 利用 磁盘 资源 。 也 就 是 ， 把 麻烦 留 给 控制 器 ， 把 
简单 留 给 磁盘 。 因 为 控制 器 的 处 理 速度 永远 比 磁 盘 的 机 械 运动 快 。 


33.3 几 种 可 控 磁 头 扫描 方式 评论 


假设 目前 磁盘 控制 器 的 队列 中 存在 如 下 的 一 些 10, 这 些 10 所 需要 查找 的 磁道 号 码 按照 
先后 排列 顺序 为 : 98、183、37、122、14、124、65 和 67， 而 当前 磁头 处 于 53 号 磁道 ， 
磁头 执行 寻 道 操 作 有 以 下 几 种 模式 。 

1. FCFS(First Come First Serve) 

在 FCFS 模式 下 ， 磁 头 完全 按照 10 进入 的 先后 顺序 执行 寻 道 操作 ， 即 从 53 号 磁道 跳 到 
98 号 ， 然 后 到 183 号 ， 再 回 到 37 号 ， 依 此 类 推 。 可 以 算出 在 这 个 例子 中 ， 此 模式 下 磁头 
滑 过 的 磁道 总 数 为 640。 对 应 的 扫描 图 如 图 3.8 所 示 。 


queue = 98, 183, 37, 122, 14, 124, 65, 67 
head starts at 53 
O 14 37 536567 98 122124 183199 
MÀ ul | 


x 


- 


Bliss rcrs 模式 扫描 图 

显然 ，FCFS 模式 很 不 科学 ， 在 随机 IO 的 环境 中 严重 影响 10 效率 。 

2. SSTF(Shortest Seek Time First) 

在 SSTF 模式 下 ,控制 器 会 优先 让 磁头 跳 到 离 当 前 磁头 位 置 最 近 的 一 个 10 磁道 去 读 写 ， 
读 写 完毕 后 , 再 次 跳 到 离 刚 读 写 完 的 这 个 磁道 最 近 的 一 个 I0 磁道 去 读 写 , 依 此 类 推 ,在 SSTF 
模式 下 ， 这 个 例子 呈现 的 扫描 图 如 图 3.9 所 示 。 

本 例 中 ， 磁 头 初始 位 置 在 53 号 磁道 ， 如果 此 时 10 队列 中 不 断 有 位 于 53 号 磁道 周围 磁 
道 的 10 进入 ， 比 如 55 号 磁道 、50 号 、51 号 等 ， 那 么 诸如 183 号 这 种 离 53 号 磁道 较 远 的 
10 将 会 被 饿 死 ， 永 远 也 轮 不 到 183 号 磁道 的 10。 所 以 SSTF 模式 的 限制 也 是 很 大 的 。 

3. SCAN( 回 旋 扫 描 模式 ) 

这 种 扫描 方式 是 最 传统 、 最 经 典 的 方式 了 。 它 类 似 于 电梯 模型 ， 从 一 端 到 另 一 端 ， 然 
后 折返 ， 再 折返 ， 这 样 循环 下 去 。 磁 头 从 最 内 侧 磁 道 依次 向 外 圈 磁 道 寻 道 。 然 而 就 像 电梯 
一 样 ， 如 果 这 一 层 没有 人 等 待 搭乘 ， 那 么 磁头 就 不 在 本 层 停止 。 也 就 是 说 如 果 当 前 队列 中 
没有 某 个 磁道 的 10 在 等 待 , 那么 磁头 就 不 会 跳 到 这 个 磁道 上 , 而 是 直接 略 过 去 。 但 是 SCAN 
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模型 中 ， 即 使 最 外 圈 或 者 最 内 圈 的 磁道 没有 IO0， 磁 头 也 要 触及 到 之 后 才能 折返 ， 这 就 像 50 
米 往返 跑 一 样 ， 必 须 触及 到 终点 线 才能 折返 回去 。SCAN 模式 的 扫描 图 如 图 3.10 所 示 。 


head starts at 53 head starts at 53 
p 14 37 586567 9e 122124 183199 o 74 37 530567 98 122124 183199 
s F 
X A 
i -— T 
t1 1 
Bl» ssrr 模式 扫描 图 图 3.10_SCAN 模式 扫描 图 
SCAN 模式 不 会 饿 死 任 何 I 0， 每 个 10 都 有 机 会 搭乘 磁头 这 个 电梯 。 然 而 ，SCAN 模式 


也 会 带 来 不 必要 的 开销 , 因为 磁头 从 来 不 会 在 中 途 折返 , 而 只 能 触及 到 终点 之 后 才能 折返 。. 
如 果 磁 头 正 从 中 间 磁 道 向 外 圈 移 动 ， 而 此 时 队列 中 进入 一 个 内 图 磁 道 的 10， 那 么 此 时 磁头 
并 不 会 折返 ， 即 使 队列 中 只 有 这 一 个 10。 这 个 10 只 能 等 待 磁头 触及 最 外 图 之 后 折返 回来 被 
执行 。 

4. C-SCAN( 单 向 扫描 模式 ) 

在 C-SCAN 模式 中 磁头 总 是 从 内 图 向 外 图 扫描 ,达到 外 疾 之 后 迅速 返回 内 圈 , 3E 
不 接受 任何 10， 然 后 再 从 内 圈 向 外 圈 扫 描 。C-SCAN 模式 的 扫描 图 如 图 3.11 所 示 。 

5. LOOK( 智 能 监察 扫描 模式 ) 和 C-LOOK( 智 能 监察 单 向 扫描 模式 ) 

LOOK 模式 相对 于 SCAN 模式 的 区 别 在 于 ， 磁 头 不 必 达 到 终点 之 后 才 折返 ， 而 具 要 完成 
最 两 端的 10 即 可 折返 。 同 样 ，C-LOOK 也 是 一 样 的 道理 ， 只 不 过 是 单 向 扫描 。 图 3.12 所 示 
的 是 C-LOOK 模式 的 扫描 图 。 


Hn 


余 中 


queue = 98, 183, 37, 122, 14, 124, 65, 67 queue 398, 183,37, 122, 14, 124, 65, 67 
hoad starts at 53 head starts at 53 
D 14 37 5396567 98 122124 183199 O 14 37 536567 98 122124 183199 
M s 
E t 
^ ^ 
E t 
~ 
~ 


B 3.11. C-SCAN 模式 扫描 图 B 3.12 C-LOOK 模式 扫描 图 


相关 于 几 种 扫描 模式 的 选择 : 总 地 说 来 ， 在 负载 不 高 的 情况 下 ，SSTEF 模式 可 以 获 
得 最 佳 的 性 能 。 但 是 鉴于 可 能 造成 某 些 较 远 的 IO 饿 死 的 问题 ， 所 以 在 高 负载 条 
ul IHF, SCAN 或 者 C-SCAN、C-LOOK 模式 更 为 合适 。 


在 大 量 随机 IO 的 情况 下 ， 磁 盘 的 磁头 臂 会 像 蜜蜂 翅膀 一 样 振动 ， 当 然 他 们 的 频率 可 能 
相差 很 大 ， 但 是 用 肉眼 观察 的 话 ， 磁 头 臂 确实 会 像 琴 弦 一 样 的 摆动 ， 频 率 是 比较 高 的 。 大 
家 可 以 去 Internet. 上 搜索 一 下 磁盘 寻 道 的 一 个 视频 ， 来 增强 感 观 认识 。 
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3.3.4 关于 磁盘 缓存 


磁盘 上 必须 有 缓存 ， 用 来 接收 指令 和 数据 ， 还 被 用 来 进行 预 读 。 磁 盘 缓存 时 刻 处 于 打 

开 状态 。 有 很 多 文档 资料 上 提 到 某 些 情况 下 可 以 “禁用 ”磁盘 缓存 ， 这 是 容易 造成 误解 的 

说 法 。 组 存在 磁盘 上 就 表现 为 一 块 电路 板 上 的 RAM 芯片 , 目前 有 2MB, 8MB, 16MB, 32MB 

等 容量 规格 。 所 谓 “ 禁 用 ”磁盘 缓存 指 的 其 实 是 本 书 第 5 章 中 描述 的 Write Through 模式 ， 

即 磁盘 收 到 写 入 指令 和 数据 后 ， 必 须 先 将 其 写 入 盘 片 ， 然 后 才 向 控制 器 返回 成 功 信 号 ， 这 
样 就 相当 于 “禁用 ”了 缓存 。 但 是 实际 上 ， 指 令 和 数据 首先 到 达 的 一 定 是 缓存 。 

SCSI 指令 中 有 两 个 参数 可 以 控制 对 磁盘 缓存 的 使 

e DPO(Disable Page Out): 这 个 参数 的 作用 是 禁止 缓存 中 的 数据 页 (缓存 中 的 数据 

以 页 为 单位 存在 ) 被 换 出 。 不 管 读 还 是 写 ， 被 置 了 这 个 参数 位 的 数据 在 缓存 空间 不 

够 的 时 候 不 能 覆盖 缓存 中 的 其 他 数据 ， 也 就 是 不 能 将 其 他 数据 换 出 。 

e FUA(Force Unit Access): 这 个 参数 的 作用 是 强制 盘 片 访问 。 对 于 写 操作 ,磁盘 必 

须 将 收 到 的 数据 写 入 盘 片 才 返 回 成 功 信 号 ， 也 就 是 进行 Write Through。 对 于 读 操 

作 ， 磁 盘 收 到 指令 后 ， 直 接 去 盘 片上 读 取 数 据 ， 而 不 搜索 缓存 。 

所 以 ， 当 某 个 SCSI 指令 的 DPO 和 FUA 两 个 参数 的 值 都 被 设置 为 1 时 ， 便 相当 于 完全 

不 使 用 缓存 的 提速 功能 了 ， 但 是 指令 和 数据 依然 会 存放 到 缓存 中 ， 这 一 点 需要 分 清和 理解 。 


3.8.5 影响 磁盘 性 能 的 因素 


目前 磁盘 可 以 分 为 单 碟 盘 和 多 碟 盘 ， 前 者 在 盘 体 内 只 有 一 张 盘 片 ， 后 者 则 有 多 张 。 前 

面 已 经 讲 过 ， 每 张 盘 片 的 正 反 两 面 都 可 以 存放 数据 ， 所 以 每 张 盘 片 需要 有 两 个 磁头 ， 各 读 

写 一 面 。 然 而 ， 有 一 点 必须 澄清 ， 磁 盘 每 个 时 刻 只 允许 一 个 磁头 来 读 写 数据 。 也 就 是 说 ， 

不 管 盘 体 内 盘 片 和 磁头 再 多 ， 也 不 可 能 提高 硬盘 的 吞吐 量 和 0 性 能 ， 只 能 提高 容量 。 然而 ， 

已 经 有 很 多 人 致力 于 改变 这 个 现状 ， 希 望 能 让 磁头 在 盘 内 实现 并 发 读 写 ， 也 就 相当 于 盘 片 
和 盘 片 之 间 相互 形成 RAID 从 而 提高 性 能 ， 但 是 这 项 工程 目前 还 没有 可 以 应 用 的 产品 。 

影响 硬盘 性 能 的 因素 包括 如 下 。 

e ”转速 转速 是 影响 硬盘 连续 10 时 吞吐 量 性 能 的 首要 因素 。 读 写 数 据 时 ， 磁 头 不 会 

动 ， 全 靠 盘 片 的 转动 来 将 对 应 扇 区 中 的 数据 感应 给 磁头 ， 所 以 盘 片 转 得 越 快 ， 数 

据 传输 时 间 就 越 短 。 在 连续 IO 情况 下 ， 磁 头 臂 寻 道 次 数 很 少 ， 所 以 要 提高 春 叶 量 

或 者 I0PS 的 值 , 转速 就 是 首要 影响 因素 了 。 目前 中 高 端 硬盘 一 般 都 为 10000 转 每 

秒 或 者 15000 转 每 秒 。 最 近 也 有 厂家 要 实现 20000 转 每 秒 的 硬盘 ， 已 经 有 了 成 形 

的 产品 ， 但 是 最 终 是 否 会 被 广泛 应 用 ， 尚 待 观察 。 

e “ 寻 道 速度 ， 寻 道 速度 是 影响 磁盘 随机 IO 性 能 的 首要 因素 。 随 机 IO 情况 下 ， 磁 头 

臂 需要 频繁 更 换 磁 道 , 用 于 数据 传输 的 时 间 相 对 于 换 道 消耗 的 时 间 来 说 是 很 少 的 

根本 不 在 一 个 数量 级 上 。 所 以 如 果 磁 头 辟 能 够 以 很 高 的 速度 更 换 磁道 ， 那 么 就 会 

提升 随机 IOPS 值 。 目 前 高 端 磁盘 平均 寻 道 速度 都 在 10ms 以 下 。 

e "uh. 单 碟 容 量 也 是 影响 磁盘 性 能 的 一 个 间接 因素 。 单 碟 容量 越 高 ， 证 明 相 

同 空间 内 的 数据 量 越 大 ， 也 就 是 数据 密度 越 大 。 在 相同 的 转速 和 寻 道 速度 条 件 下 ， 

具有 高 数据 密度 的 硬盘 会 显示 出 更 高 的 性 能 。 因 为 在 相同 的 开销 下 ， 单 碟 容 量 高 
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的 硬盘 会 读 出 更 多 的 数据 。 目 前 已 有 厂家 研发 出 单 碟 容 量 超过 300GB 的 硬盘， 但 

是 还 没有 投入 使 用 。 
e KORR: 接口 速度 是 影响 硬盘 性 能 的 一 个 最 不 重要 的 因素 。 目 前 的 接口 速度 在 
理论 上 都 已 经 满足 了 磁盘 所 能 达到 的 最 高 外 部 传输 带宽 。 在 随机 I0 环境 下 ， 接 口 
速度 显得 更 加 不 重要 ， 因 为 此 时 瓶颈 几乎 全 部 都 在 寻 道 速度 上 。 不 过 ， 高 端 便 盘 
都 用 高 速 接口 ， 这 是 普遍 做 法 。 


3.4 硬盘 接口 技术 


硬盘 是 个 复杂 的 技术 ， 到 目前 为 至 也 只 有 欧洲 、 美 国 等 发 达 国家 和 地 区 掌握 了 关键 技 
术 能 够 制造 。 但 不 管 便 盘 内 部 多 么 复杂 ， 它 必定 要 给 使 用 者 一 个 简单 的 接口 ， 用 来 对 其 访 
问 读 取 数 据 ， 而 不 必 关 心 这 串 数据 到 底 该 什么 时 候 写 入 ， 写 入 到 哪个 盘 片 ， 用 哪个 磁头 ， 
Aix Aix 
下 面 就 来 看 一 下 硬盘 向 用 户 提供 的 是 什么 样 的 接口 。 注 意 ， 这 里 所 说 的 接口 不 是 说 物 
理 上 的 接口 ， 而 是 包括 物理 、 逻 辑 在 内 的 抽象 出 来 的 接口 。 也 就 是 说 ， 一 个 事物 面向 外 部 
的 时 候 ， 为 达到 被 人 使 用 的 目的 而 向 外 提供 的 一 种 打开 的 、 抽 象 的 协议 ， 类 似 于 说 明 书 。 
目前 ， 硬 盘 提 供 的 物理 接口 包括 如 下 。 
于 ATA 指令 系统 的 IDE 接口 。 
HF ATA 指令 系统 的 SATA 接口 。 
用 于 SCSI 指令 系统 的 并 行 SCSI 接口 。 
用 于 SCSI 指令 系统 的 串 行 SCSI(SAS) 接 口 。 
于 SCSI 指令 系统 的 IBM 专用 串 行 SCSI 接口 (SSA) 。 
于 SCSI 指令 系统 的 并 且 承 载 于 FabreChannel 协议 的 串 行 FC 接口 (FCP)。 


3.4.1 IDE 硬盘 接口 


IDE 的 英文 全 称 为 Integrated Drive Electronics， 即 电子 集成 驱动 器 ， 它 的 本 意 是 指 把 
控制 电路 和 盘 片 、 磁 头等 放 在 一 个 容器 中 的 硬盘 驱动 器 。 把 盘 体 与 控制 电路 放 在 一 起 的 做 
法 减少 了 硬盘 接口 的 电缆 数目 与 长 度 ， 数 据 传输 的 可 靠 性 得 到 了 增强 。 而 且 硬 盘 制 造 起 来 
更 加 容易 ， 因 为 硬盘 生产 厂商 不 需要 再 担心 自己 的 硬盘 是 否 与 其 他 厂商 生产 的 控制 器 兼容 。 
对 用 户 而 言 , 硬盘 安装 起 来 也 更 为 方便 了 。IDE 这 一 接口 技术 从 诞生 至 今 就 一 直 在 不 断 发 展 ， 
性 能 也 不 断 地 提高 。 其 拥有 价格 低廉 、 兼容 性 强 的 特点 。IDE 接口 技术 至 今 仍然 有 很 多 用 户 ， 
但 是 正在 不 断 减少 。 
IDE 接口 ， 也 称 为 PATA 接口 ， 即 Parallel ATA( 并 行 传输 ATA). ATA 的 英文 拼写 为 
Advanced Technology Attachment， 即 高 级 技术 附加 ， 貌 似 发 明 ATA 接口 的 人 认为 这 种 接 
是 有 高 技术 含量 的 。 不 过 在 那个 年 代 应 该 也 算是 比较 有 技术 含量 的 了 。ATA 接口 最 早 是 
在 1986 年 由 Compaq. West Digital 等 几 家 公司 共同 开发 的 ， 在 20 世纪 90 年 代 初 开始 应 
于 台式 机 系统 。 最 初 ， 它 使 用 一 个 40 芯 电 缆 与 主板 上 的 ATA 接口 进行 连接 ， 只 能 支持 
个 硬盘， 最 大 容量 也 被 限制 在 504MB 之 内 。 后 来 ， 随 着 传输 速度 和 位 宽 的 提高 ， 最 后 一 
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代 的 ATA 规范 使 用 80 WHR, He 
他 数据 线 之 间 的 相互 干扰 。 

1.7 种 ATA 物理 接口 规范 

ATA 接口 从 诞生 至 今 ， 共 推出 了 7 个 不 同 的 版 本 ， 分 别 是 ATA-1(IDE)、ATA-2(EIDE 
Enhanced IDE/Fast ATA) , ATA-3(FastATA-2) . ATA-4(ATA33). ATA-5(ATA66). ATA-6(ATA100) 
和 ATA-7(ATA 133). 
ATA-1: 在 主板 上 有 一 个 插口 ， 支 持 一 个 主 设备 和 一 个 从 设备 ， 每 个 设备 的 最 大 容 
量 为 504MB， 支 持 的 PIO-0 模式 传输 速率 只 有 3.3MB/s。ATA-1 支持 的 PIO 模式 
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包括 PIO-0, PIO-1 和 PIO-2 模式 , 另外 还 支持 4 种 DMA 模式 (没有 得 到 实际 应 用 )。 


ATA-1 接口 的 硬盘 大 小 为 5 英寸 ， 而 不 是 现在 主流 的 3.5 英寸 。 
ATA-2: 是 对 ATA-1 的 扩展 ， 习 惯 上 也 称 为 EIDE(Enhanced IDE) 或 Fast ATA。 它 
在 ATA 的 基础 上 增加 了 2 种 PIO 和 2 种 DMA 模式 (PI0-3)， 不 仅 将 硬盘 的 最 高 传 
输 率 提高 到 16.6MB/s， 同 时 还 引进 了 LBA 地 址 转换 方式 ， 突 破 了 固有 的 504MB 
的 限制 ， 可 以 支持 最 高 达 8.1GB 的 硬盘 。 在 支持 ATA-2 的 BIOS 设置 中 , 一 般 可 以 
看 到 LBA(Logical Block Address) 和 CHS(Cylinder，Head，Sector) 设 置 选 项 。 同 时 
在 EIDE 接口 的 主板 上 一 般 有 两 个 EIDE 插口 , 也 就 是 由 同一 个 ATA 控制 器 操控 的 
两 个 IDE 通道 ， 每 个 通道 可 以 分 别 连 接 一 个 主 设备 和 一 个 从 设备 ， 这 样 一 块 主板 


就 可 以 支持 4 个 EIDE 设备 。 这 两 个 EDIE 接口 一 般 称 为 IDE1 和 IDE2。 


Ph 有 一 部 分 是 屏蔽 线 ， 不 传输 数据 ， 只 是 为 了 屏蔽 下 


ATA-3: 没有 引入 更 高 速度 的 传输 模式 ， 在 传输 速度 上 并 没有 任何 的 提升 ， 最 高 速 
度 仍旧 为 16.6MB/s。 只 在 电源 管理 方案 方面 进行 了 修改 ， 引 入 了 简单 的 密码 保护 


安全 方案 。 同 时 还 引入 了 一 项 划时代 


Analysis and Reporting Technology. f 


4 技术 ， 那 就 是 S.M.A.R.T(Self-Monitoring 
监测 、 分 析 和 报告 技术 )。 这 项 技术 可 以 对 


磁头 、 盘 片 、 电 机 、 电 路 等 硬盘 部 件 进行 监测 ， 通 过 检测 电路 和 主机 的 监测 软件 
对 磁盘 进行 检测 ， 把 其 运行 状况 和 历史 记录 同 预 设 的 安全 值 进行 比较 分 析 。 当 检 


测 到 的 值 超出 了 安全 值 的 范围 时 ， 会 自动 向 用 户 发 出 警告 ， 
做 出 有 效 预测 ， 提 高 了 数据 存储 的 安全 性 。 


进而 对 硬盘 潜在 故障 


ATA-4: 从 ATA-4 接口 标准 开始 正式 支持 了 Ultra DMA 数据 传输 模式 ， 因 此 也 习 


惯 称 ATA-4 为 Ultra DMA 33 或 ATA33，33 是 指数 据 传输 的 速率 为 33.3MB/s。 并 


首次 在 ATA 接口 中 采用 了 Double Data Rate( 双 倍数 据 传 输 ) 技 术 , 让 


钟 周期 内 传输 数据 两 次 ， 时 钟 上 升 期 和 下 降 期 各 有 一 次 数据 传输 ， 这 样 数据 传输 
速率 一 下 子 从 16.6MB/s 提升 至 33.3MB/s。Ultra DMA 33 还 引入 了 宛 余 校 验 技术 


(CRC)。 该 技术 的 设计 原理 是 系统 与 硬盘 在 进行 传输 的 过 程 中 ， 随 数 


环 的 见 余 校 验 码 ， 对 方 在 收取 的 时 候 对 该 校 验 码 进行 检验 ， 只 有 在 检验 完全 正 丰 
的 情况 下 才 接 收 并 处 理 得 到 的 数据 , 这 对 于 高 速 传输 数据 的 安全 性 极 下 


接口 在 一 个 时 


据 一 起 发 送 循 


有 力 的 保障 。 


ATA-5: ATA-5 也 就 是 Ultra DMA 66， 也 叫 ATA66， 是 建立 在 Ultra 
UDMA 技术 。Ultra DMA 66 将 接口 传输 电路 的 频率 


接口 的 基础 上 的 ， 同 样 采用 了 


提高 为 原来 的 两 倍 , 所 以 接收 /发 送 数据 速率 达到 66.6 MB/s. 它 保留 
宛 余 校 验 技术 。 在 工作 频率 提升 的 同时 ， 电 磁 干 


33 的 核心 技术 


DMA 33 硬盘 


Į Ultra DMA 


问题 开始 出 
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纲 在 ATA 接口 中 。 为 保障 数据 传输 的 准确 性 ， 防 止 电磁 干扰 ，Ultra DMA 66 接口 

始 使 用 40 针脚 80 芯 的 电缆 。40 针脚 是 为 了 兼容 以 往 的 ATA 插 槽 ， 减 小 成 本 

的 增加 。80 芯 中 新 增 的 都 是 信号 屏蔽 线 ， 这 40 条 屏蔽 线 不 与 接口 相连 ， 所 以 针 

靶 不 需要 增加 。 这 种 设计 可 以 降低 相 邻 信号 线 之 间 的 电磁 干扰 。 

e ATA-6: ATA100 接口 的 数据 线 与 ATA66 一 样 ， 也 是 使 用 40 £F 80 芯 的 数据 传输 

电缆 ， 并 且 ATA100 接口 完全 向 下 兼容 ， 支 持 ATA33 和 ATA66 接口 的 设备 完全 

可 以 继续 在 ATA100 接口 中 使 用 。ATA100 规范 将 电路 的 频率 又 提升 了 一 个 等 级 ， 

可 以 让 硬盘 的 外 部 传输 率 达到 100MB/s。 它 提高 了 硬盘 数据 的 完整 性 与 数据 传输 
速率 ， 对 桌面 系统 的 磁盘 子 系统 性 能 有 较 大 的 提升 作用 ， 而 CRC 技术 更 有 效 保证 
了 在 高 速 传输 中 数据 的 完整 性 和 可 靠 性 。 

€ ATA-7: ATA-7 是 ATA 接口 的 最 后 一 个 版 本 , 也 叫 ATA133. ATA133 接口 支持 133 
MB/s 数据 传输 速度 ， 这 是 第 一 种 在 接口 速度 上 超过 100MB/s 的 IDE übt, Xf 
是 目前 惟一 一 家 推出 这 种 接口 标准 硬盘 的 制造 商 。 由 于 并 行 传输 随 着 电路 频率 的 
提升 ， 传 输 线 缆 上 的 信号 干扰 越 来 越 难以 解决 ， 已 经 达到 了 当前 技术 的 极限 ， 所 
以 其 他 IDE 硬盘 厂商 停止 了 对 IDE 接口 的 开发 ， 转 而 生产 Serial ATA 接口 标准 的 
硬盘 。 

图 3.13 几 种 ATA 接口 的 总 结 。 

2. IDE 数据 传输 模式 

e  PIO 模式 (Programming Input/Output Model): PIO 模式 是 一 种 通过 CPU 执行 1/0 
端口 指令 来 进行 数据 读 写 的 数据 交换 模式 ， 是 最 早 的 硬盘 数据 传输 模式 。 这 种 模 
式 的 数据 传输 速率 低下 ，CPU 占有 率 也 很 高 ， 传 输 大 量 数据 时 会 因为 占用 过 多 的 
CPU 资源 而 导致 系统 停顿 ， 无 法 进行 其 他 的 操作 。 在 PIO 模式 下 ， 硬 盘 控 制 器 接 
收 到 硬盘 驱动 器 传 来 的 数据 之 后 , 必须 由 CPU 发 送信 号 将 这 些 数据 复制 到 内 存 中 ， 
这 就 是 PIO 模式 高 CPU 占用 率 的 原因 。PIO 数据 传输 模式 又 分 为 PI0 mode 0, PIO 
mode 1、PIO mode 2, PIO mode 3 和 PIO mode 4 几 种 模式 ,数据 传输 速率 从 3.3MB/s 
到 16.6MB/s 不 等 。 受 限于 传输 速率 低下 和 极 高 的 CPU 占有 率 ， 这 种 数据 传输 模 
式 很 快 就 被 淘汰 了 。 

e DMA 模式 (Direct Memory Access): 直译 的 意思 就 是 直接 内 存 访问 ， 是 一 种 不 经 过 
CPU 而 直接 从 内 存 存 取 数据 的 数据 交换 模式 。PI0 模式 下 硬盘 和 内 存 之 间 的 数据 传 
输 是 由 CPU 来 控制 的 ， 而 在 DMA 模式 下 ，CPU 只 须 向 DMA 控制 器 下 达 指 令 ， 让 
DMA 控制 嚣 来 处 理 数 据 的 传送 。DMA 控制 器 直接 将 数据 复制 到 内 存 的 相应 地 址 
上 ， 数 据 传送 完毕 后 再 把 信息 反馈 给 CPU， 这 样 就 很 大 程度 上 减轻 了 CPU 资源 的 
占用 率 。DMA 模式 与 PIO 模式 的 区 别 就 在 于 DMA 模式 不 过 分 依赖 CPU， 可 以 大 
大 节省 系统 资源 。 二 者 在 传输 速度 上 的 差异 并 不 十 分 明显 ，DMA 所 能 达到 的 最 大 
传输 速率 也 只 有 16.6MB/s。DMA 模式 可 以 分 为 Single-Word DMA( 单 字 节 DMA) 
和 Multi-Word DMA( 多 字 节 DMA) 两 种 。 

€ Ultra DMA 模式 (Ultra Direct Memory Access): 一 般 简 写 为 UDMA， 含 义 是 高 级 直 
接 内 存 访问 。UDMA 模式 采用 16-bit Multi-Word DMA(16 位 多 字 节 DMA) 模 式 为 


n 
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基准 ， 可 以 理解 为 是 DMA 模式 的 增强 版 本 。 它 在 包含 了 DMA 模式 的 优点 的 基础 
上 ， 又 增加 了 CRC(Cyclic Redundancy Check, 循环 见 余 码 校 验 ) 技 术 ， 提 高 数据 传 
输 过 程 中 的 准确 性 ， 使 数据 传输 的 安全 性 得 到 了 保障 。 在 以 往 的 硬盘 数据 传输 模 


式 下 , 一 个 时 钟 周期 只 传输 一 次 数据 , 而 在 UDMA 模式 中 逐渐 应 用 了 Double Data 
Rate( 双 倍数 据 传输 ) 技 术 ， 因此 数据 传输 速度 有 了 极 大 的 提高 。 此 技术 就 是 在 时 钟 
的 上 升 期 和 下 降 期 各 自 进行 一 次 数据 传输 ， 可 以 使 数据 传输 速度 成 倍 地 增长 。 
可 以 在 ATA 控制 器 属性 中 选择 使 用 PIO 还 是 DMA 传输 模式 ， 如 图 3.14 所 示 。 
ATA 硬盘 接口 规格 
接口 名 称 传输 模式 传输 速率 Ld 
TA-1 | AFB o 2.1 MB/s |«osrrem 
IO-0 3.3 WD/ 
AFP MAL SFP DIO | 4.2 MB/s E S NS-2HANGDONG u 
PI0-1 5.2 MB/s = à) DVD/CD-ROM Rb 
PI0-2 ,单字 节 DNA 2 8.3 MB/s j Sarum EAC (CH7-M Family) Serial ATA Ste 
ATA-2 [P0 11.1 MB/s | sote 
多 守节 DMA 1 13.3 MB/s 
PI0-4 ,多 字 节 DNA 2 16.6 MB/s 
ATA-3 PFI0-4, SFP DMA 2 16.6 MB/s | 40 针 电线 
ATA-4 | 多 字 节 DNA3 ,Whtra DA 33 | 33.3 m/s | stem 
ATA-5 Utra DIA 66 66.7 MB/s | 40 针 80 ore 
ATA-B Utra DMA 100 100.0 MB/s | 40 针 80 艺 电 绕 
ATAT Utra DIA 133 133.0 MB/s | 40 $t 80 orte 
图 3.13 几 种 ATA 接口 总 结 Bls.:4 DMA 模式 示意 图 


在 UDMA 模式 发 展 到 UDMA133 之 后 ， 受 限于 IDE 接口 的 技术 规范 ， 无 论 是 连接 器 、 
连接 电缆 、 信 号 协议 都 表现 出 了 很 大 的 技术 瓶颈 ， 而 且 其 支持 的 最 高 数据 传输 率 也 有 限 。 
在 IDE 接口 传输 率 提高 的 同时 , 也 就 是 工作 频率 提高 的 同时 , IDE 接口 交叉 干扰 、 地 线 增多 、 
信和 号 混乱 等 缺陷 也 给 其 发 展 带 来 了 很 大 的 制约 ， 被 新 一 代 的 SATA 接口 取代 也 就 在 所 难 


免 了 。 


3.4.2 SATA 硬盘 接口 


SATA 的 全 称 是 Serial ATA, 即 串 行 传输 ATA。 相 对 于 PATA 模式 的 IDE 接口 来 说 , SATA 
是 用 串 行 线路 传输 数据 ， 但 是 指令 集 不 变 ， 仍 然 是 ATA 指令 集 。 


规范 。 在 IDF Fall 2001 大 会 上 ， 
范 的 确立 。 自 2003 年 第 二 季度 
接口 取代 传统 PATA 接口 的 趋势 


SATA 标准 是 由 Intel、IBM、 


Dell, APT, Maxtor 和 Seagate 公司 共同 提出 的 硬盘 接 
Seagate 宣布 了 Serial ATA 1.0 标准 ， 正 式 宣告 了 SATA Jt 
Intel 推出 支持 SATA 1.5Gbps 的 南 桥 芯片 (ICH5) 后 ，SATA 
渐 明显 。 此 外 ，SATA 与 现存 于 PC 上 的 USB. IEEE 1394 


相 比 ， 在 性 能 和 功能 方面 的 表现 也 更 加 突出 。 然 而 经 过 一 年 的 市 场 洗礼 ， 原 有 的 SATA 


1.0/1.0a (1.5Gb/s) 规 格 遇 到 了 一 
强 、 配 置 更 高 的 SATA 2.0 产品 出 现在 了 市 场 上 ,这 些 高 性 能 的 SATA 2.0 硬盘 的 到 来 无 疑 力 


速 了 硬盘 市 场 的 转变 。 
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些 问 题 。2005 fF SATA 硬盘 步 入 了 新 的 发 展 阶段 ， 性 能 更 
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SATA 与 IDE 结构 在 硬件 上 有 着 本 质 区 别 ， 数 据 接口 、 电 源 接口 以 及 接口 实物 图 如 
图 3.15、 图 3.16 及 图 3.17 所 示 。 


B 3.16 SATA 硬盘 的 电源 线 


园 3.17 SATA 接口 实物 图 


1. SATA 规范 发 展 历程 

SATA 技术 是 Intel 公司 在 IDF 2000 大 会 上 推出 的 , 其 最 大 的 优势 是 传输 速率 高 。 
的 工作 原理 非常 简单 : 采用 连续 串 行 的 方式 来 实现 数据 传输 从 而 获得 较 高 的 传输 速率 
年 发 布 的 SATA 1.0 规范 提供 的 传输 速率 就 已 经 达到 了 150MB/s, 不 但 高 出 普通 IDE 硬盘 所 
提供 的 100MB/s(ATA100)， 甚 至 超过 了 IDE 最 高 传输 速率 133MB/s(ATA133). 

SATA 在 数据 可 靠 性 方面 也 有 了 大 幅度 提高 。SATA 可 同时 对 指令 及 数据 封包 进行 循环 
宛 余 校 验 (CRC), 不 仅 可 检测 出 所 有 单 bit 和 双 bit 的 错误 , 而 且 根 据 统 计 学 的 原理 还 能 够 检 
测 出 99.998% 可 能 出 现 的 错误 。 相 比 之 下 ，PATA 只 能 对 来 回 传输 的 数据 进行 校 验 ， 而 无 法 
对 指令 进行 校 验 ， 加 上 高 频率 下 干扰 其 大， 因此 数据 传输 稳定 性 很 差 。 

除了 传输 速率 更 高 、 传 输 数 据 更 可 靠 外 ， 节 省 空间 是 SATA 最 具 吸 引力 的 地 方 。 由 于 线 
缆 相 对 于 80 芯 的 IDE 线 缆 来 说 首 了 不 少 ,更 有 利于 机 箱 内 部 的 散热 ， 线 绕 间 的 串扰 也 得 到 
了 有 效 控制 。 不 过 SATA 1.0 规范 存在 不 少 缺 点 ， 特 别 是 缺乏 对 于 服务 器 和 网 络 存储 应 用 所 
需 的 一 些 先进 特性 的 支持 。 比 如 在 多 任务 、 多 请 求 的 典型 服务 器 环境 里 面 ，SATA 1.0 硬盘 
的 确 会 有 性 能 大 幅度 下 降 ， 还 有 可 维护 性 不 强 、 可 连接 性 不 好 等 缺点 。 这 时 ，SATA 2.0 的 
出 现 使 这 方面 得 到 了 很 好 的 补充 。 

2. SATA 2.0 规范 中 的 新 特性 

与 SATA 1.0 规范 相 比 ，SATA 2.0 规范 中 添加 了 一 些 新 的 特性 ， 有 具体 如 下 。 

e ”3Gb/s 的 传输 速率 : 在 SATA 2.0 扩展 规范 中 ，3Gb/s 的 速率 是 最 大 的 亮点 。 由 于 

SATA 使 用 8bit/10bit 编码 ， 所 以 3Gb/s 等 同 于 300MB/s 的 接口 速率 。 不 过 ， 从 
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性 能 角度 看 ，3Gb/s 并 不 能 带 来 多 大 的 提升 ， 旧 


ME RAID 应 用 的 场合 ， 性 能 提升 


也 没有 想象 的 那么 大 。 因 为 硬盘 内 部 传输 速率 还 达 不 到 与 接口 速率 等 同 的 程度 。 


在 大 多 数 应 用 中 ， 硬 盘 是 将 更 多 的 时 间 花 在 了 


寻 道 上 ， 而 不 是 传输 上 。 接 口 速 率 


的 提高 直接 影响 的 是 从 缓存 进行 读 写 的 操作 ,所 以 理论 上 大 缓存 的 产品 会 从 3Gb/s 


的 传输 速率 中 得 到 更 大 的 好 处 。 
e 支持 NCQ 技术 : 在 SATA 2.0 扩展 规范 所 带 


来 的 一 系列 新 功能 中 ，NCQ(Native 


Command Queuing， 自 身 命令 队列 ] 功 能 也 非常 令 人 关注 。 硬盘 是 机 电 设备 ， 容 易 


受 内 部 机 械 部 件 惯性 的 影响 ， 其 中 旋转 等 待 时 
盘 对 数据 访问 和 检索 的 效率 。 前 面 曾经 描述 过 
动 器 自身 实现 的 排队 技术 。 

如 果 对 磁头 寻 道 这 个 机 械 动 作 的 执行 过 程 实施 智 角 


经 个 工作 流程 的 效率 。 所 谓 智能 化 的 内 部 管理 就 是 取出 


有 效 地 获取 和 发 送 主机 请 求 的 数据 。 在 硬盘 执行 某 一 
令 并 排 在 等 待 执行 的 作业 中 。 如 果 新 的 命令 恰好 是 处 


是 队列 中 要 处 理 的 下 一 个 命令 。 但 有 效 的 排序 算法 既 要 
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其 角度 位 置 ， 并 且 还 要 对 线性 位 置 和 角度 位 置 进行 优 


间 和 寻 道 等 待 时 间 就 大 大 限制 了 硬 
一 个 模型 ， 指 的 就 是 这 种 由 硬盘 驱 


老化 的 内 部 管理 ， 就 可 以 大 大 地 提高 
队列 中 的 命令 ， 然 后 重新 排序 ， 以 
命令 的 同时 ， 队 列 中 可 以 加 入 新 的 
理 起 来 机 械 效率 最 高 的 ， 那 么 它 就 
考虑 目标 数据 的 线性 位 置 ， 又 要 考 
化 ， 以 使 总 线 的 服务 时 间 最 小 ， 这 


过 程 也 称 作 “基于 寻 道 和 旋转 优化 的 命令 重新 排序 ”。 
台式 PATA 硬盘 队列 一 直 被 严格 地 限制 为 深度 不 得 超过 32 级 。 如 果 增 加 队列 深度 ， 可 


执行 命令 ， 二 是 延迟 执行 。 对 于 后 一 种 情况 ， 硬 盘 必 


命令 堆积 的 风险 。 通 常 PATA 硬盘 接收 命令 时 有 两 种 选择 , 一 是 立 


须 通 过 设置 注意 标志 和 Service 位 来 


知 主机 何 时 开 Hb e 。 然 而 硬盘 不 能 主动 与 主机 通信 ， 这 就 需要 主机 定期 轮回 查询 ， 
现 Service 位 后 将 发 出 一 条 Service 命令 ， 然 后 才能 从 硬盘 处 获得 将 执行 哪 一 条 待 执行 命 
的 信息 。 而 且 Service 位 不 包含 任何 对 即将 执行 命令 的 识别 信息 ， 所 必需 的 命令 识别 信息 
是 以 标记 值 的 形式 与 数据 请 求 一 同 传输 的 ， 并 仅 供 主 机 用 于 设置 DMA 引擎 和 接收 数据 缓冲 


。 这 样 主机 就 不 能 预先 掌握 硬盘 所 设置 的 辅助 位 是 哪 


说 也 无 法 设置 DMA 引擎 ， 这 最 终 导 致 了 PATA 硬盘 效率 低下 。 


NCQ 包含 如 下 两 部 分 内 容 。 


e ”一 方面 ,硬盘 本 身 必 须 有 能 力 针对 实体 数据 的 扇 区 
1 


进行 排序 。 同 时 硬盘 内 部 队列 中 的 命令 可 以 
整 或 排序 ， 其 中 跟踪 机 制 用 于 掌握 待 执行 和 已 
JU 


一 旦 人 硬盘 准备 就 绪 ， 就 重新 连接 到 主机 ， 尽 可 
除 占 用 总 线 的 现象 。 

e ” 男 一 方面 通信 协议 的 支持 也 相当 重要 。 因 为 
容易 造成 中 断 ， 这 会 降低 主 控 器 的 效率 ， 所 以 
相当 于 一 次 执行 完 数 个 命令 后 ， 再 对 主 控 器 回 
命令 的 效能 。 


从 最 早 的 希捷 7200.7 系列 硬盘 开始 , NCO 技术 应 用 于 桌面 产品 的 时 间 人 至 今 已 超 二 
目前 NCO 对 个 人 桌面 应 用 并 没有 带 来 多 大 的 性 能 提升 ,在 某 些 情况 下 还 会 引起 副 作 


可 以 使 主机 在 设备 对 命令 进行 排队 的 时 候 ， 断 


条 命令 设置 的 ， 数 据 传输 周期 开始 


分 布 对 命令 缓冲 区 中 的 读 写 命 
随 着 必要 的 跟踪 机 制 动 态 地 重新 调 
完成 作业 的 情况 ， 而 命令 排队 功能 
与 硬盘 间 的 连接 以 释放 总 线 。 
能 以 最 快 的 速率 传输 数据 ， 从 而 消 


以 前 的 PATA 硬盘 在 传输 数据 时 很 
NCQ 规范 中 定义 了 中 断 聚 集 机 制 。 
传 执 行 完毕 的 信息 ， 改 善 处 理 队 殉 
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而 且 不 同 硬盘 厂商 的 NCQ 方案 存在 着 差异 ， 带 来 的 效果 也 不 同 。 
e ”端口 选择 器 (Port Selector): 目前 的 SATA 2.0 扩展 规范 还 具备 了 Port Selector( 端 口 
选择 器 ] 功 能 。Port Selector 是 一 种 数据 元 余 保 护 方案 ， 使 用 Port Selector 可 增加 
宛 余 度 具 有 Port Selector 功能 的 SATA 硬盘 ,外 部 有 两 个 SATA 接口 ， 同 时 连接 这 
个 接口 到 控制 器 上 ， 一 旦 某 个 接口 坏 掉 或 者 连 线 故 障 ， 则 立刻 切换 到 另 一 个 接 
和 连 线 上 ， 不 会 影响 数据 传输 。 
e ”端口 复 用 器 (Port Multiplier): SATA 1.0 的 一 个 缺点 就 是 可 连接 性 不 好 ， 即 连接 多 
个 硬盘 的 扩展 性 不 好 。 因 为 在 SATA 1.0 规范 中 ， 一 个 SATA 接口 只 能 连接 一 个 设 
f. SATA 规范 的 制定 者 们 显然 也 意识 到 了 这 个 问题 ， 于 是 在 SATA 2.0 中 引入 了 
Port Multiplier 的 概念 .Port Multiplier 是 一 种 可 以 在 一 个 控制 器 上 扩展 多 个 SATA 
设备 的 技术 , 它 采 用 4 位 (bit) 宽 度 的 Port Multiplier 端口 字段 , 其 中 控制 端口 占用 
一 个 地 址 ， 因此 最 多 能 输出 2 的 四 次 方 减 1 个 ， 即 15 个 设备 连接 , 这 与 并 行 SCSI 
相当 。Port Multiplier 的 上 行 端口 只 有 1 个， 在 带宽 为 150MB/s 的 时 候 容易 成 为 
瓶颈 ， 但 如 果 上 行 端口 支持 300MB/s 的 带宽 ， 就 与 Ultra320 SCSI 的 320MB/s 十 
分 接近 了 。Port Multiplier 技术 对 需要 多 硬盘 的 用 户 很 有 用 ， 不 过 目前 提供 这 种 功 
能 的 芯片 组 极 少 。 
e ”服务 器 特性 ， 在 SATA 2.0 扩展 规范 中 还 增加 了 大 量 的 新 功能 ， 比 如 防止 开机 时 多 
硬盘 同时 启动 带 来 太 大 电流 负荷 的 交错 启动 功能 ， 强 大 的 温度 控制 、 风 扇 控制 和 
环境 管理 ; 背 板 互联 和 热 插 拔 功能 等 。 这 些 功 能 更 侧重 于 低 端 服务 器 方面 的 扩展 。 
e ”接口 和 连 线 的 强化 ， 作 为 一 个 还 在 不 断 添加 内 容 的 标准 集合 ，SATA 2.0 最 新 的 热 
点 是 eSATA， 即 外 置 设备 的 SATA 接口 标准 ， 采 用 了 屏蔽 性 能 更 好 的 两 米 长 连接 
线 ， 目 标 是 最 终 取代 USB 和 IEEE 1394。 在 内 部 接口 方面 ，Click Connect 加 强 了 
连接 的 可 靠 性 ， 在 接 上 时 有 提示 声 ， 拔 下 时 需要 先 按 下 卡 口 。 这 些 细微 的 结构 变 

化 显示 出 SATA 接口 更 加 成 熟 和 可 靠 。 
下 面 以 单独 的 一 节 来 讲解 在 存储 方面 应 用 最 为 广泛 的 SCSI 硬盘 接 
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SCSI 与 ATA 是 目前 现行 的 两 大 主机 与 外 设 通 信 的 协议 规范 ， 而 且 它们 各 自 都 有 自己 的 
物理 接口 定义 。 对 于 ATA 协议 ， 对 应 的 就 是 IDE 接口 ， 对 于 SCSI 协议 ， 对 应 的 就 是 SCSI 
接口 。 凡 是 作为 一 个 通信 协议 ， 就 可 以 按照 OS 模型 (本 书 第 7 章 将 介绍 ) 来 将 其 划分 层次 ， 
尽管 有 些 层次 可 能 是 合并 的 或 者 是 缺失 的 。 划 分 了 层次 之 后 ， 我 们 就 可 以 把 这 个 协议 进行 
分 解 ， 提 取 每 个 层次 的 功能 和 各 个 层次 之 间 的 接口 ， 从 而 可 以 将 这 个 协议 融合 到 其 他 协议 
之 中 ,形成 一 种 “杂交 ”协议 来 适应 各 种 不 同 的 环境 ， 这 个 话题 将 在 本 书 第 13 章 加 以 阐述 。 

SCSI 的 全 称 是 Small Computer System Interface， 即 小 型 计算 机 系统 接口 ， 是 一 种 较为 
特殊 的 接口 总 线 ， 具 备 与 多 种 类 型 的 外 设 进行 通信 的 能 力 ， 比 如 硬盘 、CD-ROM、 磁 带 机 和 
扫描 仪 等 。SCSI 采用 ASPI( 高 级 SCSI 编程 接口 ] 的 标准 软件 接口 使 驱动 器 和 计算 机 内 部 安装 
的 SCSI 适配器 进行 通信 。SCSI 接口 是 一 种 广泛 应 用 于 小 型 机 上 的 高 速 数据 传输 技术 。SCSI 
接口 具有 应 用 范围 广 、 多 任务 、 带 宽大 、CPU 占用 率 低 以 及 热 插 拔 等 优点 。 
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SCSI 接口 为 存储 产品 提供 了 强大 、 灵 活 的 连接 方式 ， 还 提供 了 很 高 的 性 能 ， 可 以 有 8 
个 或 更 多 (最 多 16 个 ] 的 SCSI 设备 连接 在 一 个 SCSI 通道 上 ， 其 缺点 是 价格 过 于 昂贵 。SCSI 
接口 的 设备 一 般 需要 配合 价格 不 菲 的 SCSI 卡 一 起 使 用 (如 果 主 板 上 已 经 集成 了 SCSI 控 制 器 ， 
则 不 需要 额外 的 适配器 ), 而 且 SCSI 接口 的 设备 在 安装 、 设 置 时 比较 麻烦 , 所 以 远 远 不 如 IDE 
设备 使 用 广泛 。 虽 然 从 2007 年 开始 ，IDE 硬盘 就 被 SATA 硬盘 彻底 逐 出 了 市 场 。 

在 系统 中 应 用 SCSI 必须 要 有 专门 的 SCSI 控制 器 ， 也 就 是 一 块 SCSI 控制 卡 ， 才 能 支持 
SCSI 设备 ， 这 与 IDE 硬盘 不 同 。 在 SCSI 控制 器 上 有 一 个 相当 于 CPU 的 芯片 ， 它 对 SCSI 设 
备 进 行 控 制 ， 能 处 理 大 部 分 的 工作 , 减少 了 CPU 的 负担 [CPU 占用 率 )。 在 同时 期 的 硬盘 中 ， 
SCSI 硬盘 的 转速 、 缓 存 容量 、 数 据 传输 速率 都 要 高 于 IDE 硬盘 ， 因 此 更 多 是 应 用 于 商业 
领域 。 

下 面 简单 介绍 一 下 SCSI 规范 的 发 展 过 程 。 

SCSI 最 早 是 1979 年 由 美国 的 Shugart 公司 (希捷 公司 前 身 ] 制 订 的， 在 1986 年 获得 了 
ANSI( 美 国标 准 协 会 ] 的 承认 ， 称 为 SASI(Shugart Associates System Interface)， 也 就 是 最 初 
版 本 SCSI-1. 

SCSI-1 是 第 一 个 SCSI 标准 ,支持 同步 和 异步 SCSI 外 围 设备 ; 使 用 8 位 的 通道 宽度 ; 最 
多 允许 连接 7 个 设备 ， 异 步 传 输 时 的 频率 为 3MB/s， 同 步 传输 时 的 频率 为 5MB/s; 支持 
WORM 外 围 设备 。 它 采用 25 针 接 口 ， 因 此 在 连接 到 SCSI 卡 (SCSI 卡 上 接口 为 50 针 ) 上 时 ， 
必须 要 有 一 个 内 部 的 25 针对 50 针 的 接口 电缆 。 该 种 接口 已 基本 被 淘汰 ， 在 相当 古老 的 设 
备 上 或 个 别 扫描 仪 设备 上 可 能 还 可 以 看 到 。 

SCSI-2 又 被 称 为 FastSCSI， 它 在 SCSI-1 的 基础 上 做 出 了 很 大 的 改进 ， 增 加 了 可 靠 性 ， 
数据 传输 率 也 被 提高 到 了 10MB/s, 但 仍旧 使 用 8 位 的 并 行 数据 传输 , 还 是 最 多 连接 7 个 设 
备 。 后 来 又 进行 了 改进 ， 推 出 了 支持 16 位 并 行 数据 传输 的 WIDE-SCSI-2( 宽 带 ] 和 
FAST-WIDE-SCSI-2( 快 速 宽带 )。 其 中 WIDE-SCSI-2 的 数据 传输 速率 并 没有 提高 ， 只 是 改 用 
16 位 传输 ;而 FAST-WIDE-SCSI-2 则 是 把 数据 传输 速率 提高 到 了 20MB/s. 

SCSI-3 标准 版 本 是 在 1995 年 推出 的 ， 也 习惯 称 为 Ultra SCSI， 其 同步 数据 传输 速率 为 
20MB/s。 若 使 用 16 位 传输 的 Wide 模式 时 ， 数 据 传输 率 更 可 以 提高 至 40MB/s。 其 允许 接 
电缆 的 最 大 长 度 为 1.5 米 。 

1997 年 推出 了 Ultra 2 SCSI(Fast 一 40)] 标 准 版 本 ， 其 数据 通道 宽度 仍 为 8 位 ， 但 其 采用 
了 LVD(Low Voltage Differential， 低 电 平 微分 ] 传 输 模 式 ， 传 输 速率 为 40MB/s， 人 允许 接口 电 
缆 的 最 大 长 度 为 12 米 ， 大 大 增加 了 设备 的 灵活 性 ， 且 支持 同时 挂 接 7 个 设备 。 随 后 推出 了 
Wide Ultra 2 SCSI 接口 标准 ， 它 采用 16 位 数据 通道 带宽 ， 最 高 传输 速率 可 达 80MB/s, fù 
许 接口 电缆 的 最 大 长 度 为 12 米 ， 支 持 同时 挂 接 15 个 装置 。 

LVD 可 以 使 用 更 低 的 电压 ， 因 此 可 以 将 差 动 驱动 程序 和 接收 程序 集成 到 硬盘 的 板 载 
SCSI 控制 器 中 。 不 再 需要 单独 的 高 成 本 外 部 高 电压 差 动 组 件 。 而 老式 SCSI 需要 使 用 独立 的 、 
耗 电 的 高 压 器 件 。 
LVD 硬盘 可 进行 多 模式 转换 。 当 所 有 条 件 都 满足 时 ， 硬 盘 就 工作 在 LVD 模式 下 ; 反 
之 ， 如 果 并 非 所 有 条 件 都 满足 ， 硬 盘 将 降 为 单 端 工作 模式 。LVD 硬盘 带宽 的 增加 对 于 服务 
器 环境 来 说 意味 着 更 理想 的 性 能 。 服 务 器 环境 都 有 快速 响应 、 必 须 能 够 进行 随机 访问 和 大 
工作 量 的 队列 操作 等 要 求 。 当 使 用 诸如 CAD、CAM、 数 字 视 频 和 各 种 RAID 等 软件 的 时 候 ， 


[44 1 


第 OQ BB AANB — ENG SHARE 


带宽 增加 的 效果 能 立竿见影 ， 信 息 可 以 迅速 而 轻松 地 进行 传输 。 

Ultra 160 SCSI, 也 称 为 Ultra 3 SCSI LVD, 是 一 种 比较 成 熟 的 SCSI 接口 标准 , 是 在 Ultra 
2 SCSI 的 基础 上 发 展 起 来 的 ,采用 了 双 转 换 时 钟 控制 ,循环 匈 余 码 校 验 和 域名 确认 等 新 技术 。 
在 增强 了 可 靠 性 和 易 管 理性 的 同时 ，Ultra 160 SCSI 的 传输 速率 为 Ultra2 SCSI 的 2 倍 ， 达 
到 160MB/s。 这 是 采用 了 双 转 换 时 针 控 制 的 结果 。 双 转换 时 钟 控制 在 不 提高 接口 时 钟 频 率 
的 情况 下 使 数据 传输 率 提高 了 一 倍 ， 这 也 是 Ultral 60 SCSI 接口 速率 大 幅 提 高 的 关键 。 

Ultra 320 SCSI, 也 称 为 Ultra4 SCSI LVD, 是 比较 新 型 的 SCSI 接口 标准 。Ultra 320 SCSI 
是 在 Ultra 160 SCSI 的 基础 上 发 展 起 来 的 ，Ultra 160 SCSI 的 3 项 关键 技术 ， 即 双 转 换 时 钟 
控制 、 循 环 兄 余 码 校 验 和 域名 确认 ， 都 得 到 了 保留 。 以 往 的 SCS 接口 标准 中 ，SCSI 接口 支 
持 异 步 和 同步 两 种 传输 模式 。Ultra 320 SCSI 引入 了 调 步 传输 模式 ， 在 这 种 传输 模式 中 简化 
YR BOE, fi Ultra 320 SCSI 的 高 传输 速率 成 为 可 能 。Ultra 320 SCSI 传输 速率 可 以 
达到 320MB/s。 

图 3.11 为 SCSI 总 线 连接 示意 图 。 


SCSI 
到 主机 IO 控制 器 


RES e n al 信号 终结 电阻 
SGSI SCSI SCsI SCSI 
设备 设备 设备 设备 


3.18 SCSI 总 线 连接 示意 图 


SCSI 协议 中 的 OST 模型 
- 面 描述 的 SCSI 接口 的 各 个 规范 ， 全 部 限于 物理 电气 层 ， 即 描述 传输 速率 、 电 气 技术 
性 能 等 。 而 我 们 也 说 过 ，SCSI 是 一 套 完整 的 数据 传输 协议 。 一 个 通信 协议 必然 会 跨越 OSI 
的 所 有 7 个 层次 ， 而 物理 电气 参数 只 是 0S1 模型 中 的 第 一 层 ， 那 么 第 二 层 到 第 七 层 ，SCSI 
纲 范 中 也 包含 么 ? 答案 当然 是 肯定 的 。 
1. SCSI 协议 的 链 路 层 
OSI 模型 中 链 路 层 的 功能 就 是 用 来 将 数据 帧 成 功 地 传送 到 这 条 线路 的 对 端 。SCSI 协议 
中 ， 利 用 CRC 校 验 码 来 校 验 每 个 指令 或 者 数据 的 帧 ， 如 果 发 现 对方 发 来 的 校 验 码 与 本 地 计 
算 的 不 同 ， 则 说 明 这 个 数据 帧 在 传输 过 程 中 受到 了 比较 强 的 干扰 而 使 其 中 某 个 或 者 某 些 位 
发 生 了 翻转 ， 那 么 就 会 丢弃 这 个 帧 ， 发 送 方便 会 重 传 这 个 帧 。 

2. SCSI 协议 的 网 络 层 

1) SCSI 总线 编 址 机 制 

OSI 模型 中 网 络 层 的 功能 就 是 用 来 寻 址 的 ， 那 么 面 对 总 线 或 者 交换 架构 下 的 多 个 节点 ， 
各 个 节点 之 间 又 是 如 何 区 分 对 方 呢 ? 只 有 解决 了 这 个 问题 ， 才 能 继续 ， 否 则 是 没有 意义 的 。 
SCSI 协议 利用 了 一 个 SCSIID 的 概念 来 区 分 每 个 节点 。 在 Ultra 320 SCSI 协议 中 ， 一 条 SCSI 
总 线 上 可 以 存在 16 个 节点 ， 其 中 scsi 控制 器 占用 一 个 节点 ，SCSI ID 被 恒定 设置 为 7。 殿 
他 15 个 节点 的 SCSIID 可 以 随便 设置 但 是 不 能 重复 。 这 16 个 ID 中 ，7 具有 最 高 的 优先 级 。 
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也 就 是 说 , 如 果 7 这 个 ID 要 发 起 传输 , 则 其 他 15 个 ID 都 必须 乖乖 把 总 线 的 使 用 权 让 给 它 。 
图 3.19 是 SCSI 总 线 ID 优先 级 示意 图 。 


L [s] Ts To [2 [3 [o so To Du DT [s] 


最 高 优先 权 最 低 优先 权 


[19 scs 总 线 ID 优先 级 示意 图 
于 总 线 是 一 种 共享 的 线路 ， 总 线 上 的 每 个 节点 都 会 同时 感知 到 这 条 线路 上 的 电位 信 
号 ， 所 以 同一 时 刻 只 能 由 一 个 节点 向 这 条 总 线 上 放 数 据 ， 也 就 是 给 这 条 线路 加 一 个 高 电位 
或 者 低 电 位 。 其 他 所 有 节点 都 能 感知 到 这 个 电位 的 增 降 ， 但 是 只 有 接受 方 节点 才 会 将 感知 
到 的 电位 增 降 信号 保存 到 自己 的 缓存 中 ， 这 些 保存 下 来 的 信号 就 是 数据 。 电 路 上 是 高 电位 
则 接受 方 会 保存 为 1， 低 电位 则 保存 成 0， 反 过 来 保存 也 可 以 。 图 3.20 是 一 个 上 只 有 两 条 导 
线 的 总 线 网 络 (实际 中 的 总 线 远 远 不 止 两 条 导线 ), 其 中 总 线 终结 电阻 的 作用 是 终结 导线 上 的 


电位 信号 。 
aku FANS 
EC | | : 
: | 
101 102 103 ID4 ID5 ID6 


园 3.20_scsi 总 线 ID 
图 3.21 是 一 个 32 位 数据 总 线 的 SCSIID 与 其 优先 级 以 及 导线 的 对 应 表 。 


n ofo E ss 
EH sle E EH B| ndo 
à pa ws EN 
T 


B2: scsiin 与 其 优先 级 以 及 导线 的 对 应 表 
那么 这 些 节 点 是 如 何 知 道 现在 正在 通信 的 两 个 节点 之 中 有 没有 自己 呢 ? 要 了 解 当 前 线 
路 上 是 不 是 自己 在 通信 ， 或 者 自己 想 争夺 线路 的 使 用 权 而 通告 其 他 节点 ， 这 个 过 程 叫做 促 
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裁 。 有 总 线 的 地 方 就 有 仲裁 ， 因 为 总 线 是 共享 的 ， 各 个 节点 都 申请 使 


仲裁 机 制 。 


SCSI 卡 一 端 接 入 主机 的 PCI 总 线 ， 
CPU( 频 率 很 低 ， 


第 BG B “磁盘 大 抢 移 一 -磁盘 原理 与 技术 详解 


， 所 以 必须 有 一 个 


SCSI 接口 并 不 只 有 8 或 者 16 条 数据 线 ， 还 有 很 多 控制 信号 线 。 
台式 机 主板 一 般 不 集成 SCSI dioi 如 果 想 接 入 SCSI 磁盘 ， 则 必 


须 增加 SCSI Fo 


一 端 用 一 个 SCSI 控制 器 接 入 SCSI 总 线 。 卡 上 有 自己 的 
一 般 为 RISC XM). 通过 执行 ROM 中 的 代码 来 控制 整个 SCSI 卡 的 工作 。 
经 过 这 样 的 架构 ，SCSI 卡 将 SCSI 总 线 上 的 所 有 设备 ， 


经 过 PCI 总 线 传递 给 内 存 中 运行 着 的 


SCSI 卡 的 驱动 程序 ， 这 样 操作 系统 便 会 知道 SCSI 总 线 上 的 所 有 设备 了 。 如 果 这 块 卡 有 不 止 


一 个 SCSI 控制 器 ， 则 每 个 控制 器 都 可 以 单独 掌管 


一 条 SCSI 总 线 ， 这 就 是 多 通道 SCSI E. 


通道 越 多 ， 一 张 卡 可 接 入 的 SCSI 设备 就 越 多 。 
图 3.22 是 SCSI 总 线 接 入 计算 机 总 线 的 示意 图 。 


322 SCSI 总 线 与 计算 机 总 线 


2) SCSI 寻 址 机 制 和 几 个 阶段 
e 空闲 阶段 
总 线 一 开始 是 处 于 一 种 容 


E 闲 状态 ， 没 有 节点 要 发 起 通信 。 


总 线 空 闲 的 时 候 ，BSY 


和 SEL 这 两 条 控制 信号 线 的 状态 都 为 False 状态 (用 一 个 持续 的 电位 表示 )， 此 时 任 


何 节点 都 可 以 发 起 通信 。 
e 仲裁 阶段 


节点 申请 总 线 的 使 用 权 是 通过 在 8 条 或 者 16 条 数据 总 线 上 (8 位 宽 SCSI 有 8 条 ， 


16 位 宽 


SCSI A 16 条) 提升 自 己 对 应 的 那 条 线路 的 电位 来 申请 总 线 使 用 权 的 。 提 升 
自己 ID 对 应 线路 的 电位 的 同时 ， 这 个 节点 也 提升 BSY 线路 的 电位 。 


每 个 ID 号 对 


应 这 8 条 或 者 16 条 线 中 的 一 条 。SCSI 设备 上 都 有 跳 线 用 来 设置 这 个 设备 的 ID 号 。 
跳 线 设置 好 之 后 ， 这 个 设备 每 次 申请 仲裁 都 只 会 在 SCSI 接口 的 8 条 或 16 条 数据 
线 中 的 对 应 它 自身 ID 的 那 条 线 上 提升 电位 。 如 果 同 时 有 多 个 节点 提升 了 各 自 线路 


上 的 电位 ， 那 么 所 有 发 起 申请 的 节 


优先 级 的 ， 那 么 就 持续 保留 这 个 信号 
级 的 ID 线路 上 有 信号 ， 则 立即 撤销 自身 的 信号 
最 高 优先 级 的 ID 就 在 这 轮 仲裁 中 获胜 ， 取 得 总 线 的 使 


升 电位 。 


5 点 均 判 断 总 线 上 的 这 些 信 号 ， 
。 而 其 他 低 优 先 级 的 节点 一 旦 检测 到 高 优先 


如 果 自 己 是 最 高 


， 回 到 初始 状态 等 待 下 轮 仲裁 ， 而 
BG FIRE SEL 信号 线 提 


SCSI 总 线 的 寻 址 方式 ,按照 控制 器 一 通道 一 SCSI1D 一 LUN ID 来 寻 址 。LUN 是 个 新 


名 词 ， 全 称 是 Logical Unit Number， 下 面 内 容 中 我 们 会 对 它 进 行 描述 。 
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先 看 一 下 控制 器 一 级 寻 址 。 控制 器 就 是 指 SCSI 控制 器 , 这 个 控制 器 集成 在 南 桥 上 ， 
或 者 独立 于 某 个 PO 插 卡 。 但 不 管 在 哪里 ， 它 们 都 要 连接 到 主机 I0 总 线 上 。 有 10 
端口 ， 就 可 以 让 CPU 访问 到 。 一 个 主机 10 总 线 上 不 一 定 只 有 一 个 SCSI 控制 器 
可 以 有 多 个 ， 比 如 插入 多 张 SCSI 卡 到 主板 ， 那 么 就 会 在 Windows 系统 的 设备 管 
理 器 中 发 现 多 个 SCSI 控制 器 。 系 统 会 区 分 每 个 控制 器 
每 个 控制 器 又 可 以 有 多 个 通道 。 通 道 也 就 是 SCSI 总 线 , 一 条 SCSI 总 线 就 是 一 个 通 
道 。 那 么 多 条 SCSI 总 线 ( 通 道 ] 可 以 被 一 个 控制 器 管理 么 ? 答案 是 肯定 的 ， 这 个 物 
理 控制 器 会 被 逻辑 划分 为 多 个 虚拟 的 ， 可 以 管理 多 个 通道 [SCSI 总 线 ) 的 控制 器 ， 
称 为 多 通道 控制 器 。 目 前 市 场 上 有 的 产品 可 以 将 4 个 通道 集成 到 一 个 单独 的 SCSI 
FRE. 不 仅仅 SCSI 控制 器 可 以 有 多 通道 ，IDE 控制 器 也 有 通道 的 概念 。 我 们 知道 ， 
台式 机 主板 上 一 般 会 有 两 个 IDE Hiiti, 一 个 IDE 插 槽 可 以 连接 两 个 IDE WE 

是 设备 管理 器 中 只 有 一 个 IDE 控制 器 ， 如 图 3.23 所 示 。 也 就 是 说 一 个 控制 器 掌 

aapea EEDD EATA IDE 设备 。 
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BAE DE 通道 
CE LUE 
图 3.23 Windows 中 的 IDE 控制 器 
常 说 的 “ 单 通道 SCSI 卡 ” 和 “ 双 通 道 SCSI 卡 ”， 就 是 指 上 面 可 以 接 几 条 SCSI 总 


线 。 当 然 通道 数目 越 多 ， 能 接 入 的 SCSI 设备 也 就 越 多 。 

每 个 通道 (总 线 ) 上 可 以 接 入 8 或 16 SCSI 设备 , 所 以 必须 区 分 开 每 个 SCSI 设备 。 
SCSI ID 就 是 针对 每 个 设备 的 编号 ， 每 个 通道 上 的 设备 都 有 自己 的 ID。 不 同 通道 之 
间 的 设备 ID 可 以 相同 ， 并 不 影响 它们 的 区 分 ， 因 为 它们 的 通道 号 不 同 。 如 图 3.24 
为 多 通道 控制 器 示意 图 。 
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3.24 多 通道 控制 器 示意 图 


图 3.25 中 所 示 的 机 器 安装 了 一 块 LSI 的 SCSI E, 但 是 显示 为 两 个 设备 ， 这 两 个 设 
备 就 是 两 个 通道 。 


se 
a ees ga amao 
图 3.25 Windows 中 的 SCSI 控制 器 
其 中 一 个 在 第 3 号 PCI 总 线 上 的 第 三 个 设备 (第 三 个 PCIE) E. 功能 0 指 的 就 是 
0 号 通道 ， 如 图 3.26 所 示 。 
一 个 也 在 第 3 号 PCI 总 线 上 的 第 三 个 设备 (第 三 个 PCIE) E, 表明 这 个 设备 也 
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在 同一 块 SCSI 卡 上 。 功 能 1 指 的 是 1 号 通道 ， 如 图 3.27 所 示 。 
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然而 ，SCSI ID 并 不 是 SCSI 总 线 网 络 中 的 最 后 一 层 地 址 ， 还 有 一 个 LUN ID 。 这 个 

是 做 什么 用 的 呢 ? 难道 一 个 SCSI1D, 也 就 是 一 个 SCSI 设备 , 还 可 以 再 划分 ?是 的 

可 以 再 分 ! 再 分 就 不 是 物理 上 的 分 割 了 ， 总 不 能 把 一 个 SCSI 设备 竹 开 两 半 吧 。 只 

能 在 逻辑 上 分 , 每 个 SCSIID 下 面 可 以 再 区 分 出 来 若干 个 LUN ID. 控制 器 初始 化 的 

时 候 , 会 对 每 个 SCSIID 上 的 设备 发 出 一 条 Report Lun 指令 , 用 来 收集 每 个 SCSIID 
设备 的 LUN 信息 。 这样, 一 条 SCSI 总 线 上 可 接 入 的 最 终 逻 辑 存 储 单元 数量 就 大 大 
增加 了 。LUN 对 传统 的 SCSI 总 线 来 说 意义 不 大 , 因为 传统 SCS 设备 本 身 己 经 不 可 
物理 上 再 分 了 。 如 果 一 个 物理 设备 上 没有 再 次 划分 的 逻辑 单元 ， 那 么 这 个 物理 设 
备 必 须 向 控制 器 报告 一 个 LUN0， 代 表 物 理 设备 本 身 。 对 于 带 RAID 功能 的 SCSI 
接口 磁盘 阵列 设备 来 说 , 由 于 会 产生 很 多 的 虚拟 磁盘 , 所 以 只 靠 SCSI ID 是 不 够 的 ， 
这 时 候 就 要 用 到 LUN 来 扩充 可 寻 址 的 范围 ， 所 以 习惯 上 称 磁盘 阵列 生成 的 虚拟 磁 
WA LUN. XF RAID 和 磁盘 阵列 会 分 别 在 本 书 的 第 4 章 到 第 6 章 中 介绍 。 

e 选择 阶段 
仲裁 阶段 之 后 ， 获 胜 的 节点 会 将 BSY 和 SEL 信号 线 置 位 ， 然 后 将 8 或 16 条 数据 
总 线 上 对 应 它 自身 ID 的 线路 和 对 应 它 要 通信 的 目标 ID 的 线路 的 电位 提升 ， 这 样 
目的 节点 就 能 感知 到 它 自己 的 线路 上 来 了 信和 号， 开始 做 接收 准备 。 


SCSI 控制 器 也 是 总 线 上 的 一 个 节点 ， 它 的 优先 级 必须 是 最 高 的 ， 即 等 于 7， 因 
R 为 控制 器 需要 掌控 整 条 总 线 。 


总 线 上 最 常 发 生 的 是 控制 器 向 其 他 节点 发 送 和 接收 数据 ， 而 除 控制 器 之 外 的 其 他 
节点 之 间 交 互 数据 ， 一 般 是 不 会 发 生 的 。 如 果 要 从 总 线 上 的 一 块 硬盘 复制 数据 到 
另 一 块 硬盘 ， 那 也 必须 先 将 数据 发 送 到 控制 器 ， 控 制 器 再 复制 到 内 存 ， 经 过 CPU 
运算 后 再 次 发 给 控制 器 ， 然 后 控制 器 再 发 给 另外 一 块 硬盘 。 经 过 这 么 长 的 路 径 而 
不 直接 让 这 两 块 硬盘 建立 通信 ， 原 因 就 是 硬盘 本 身 是 不 能 感知 文件 这 个 概念 的 ， 
硬盘 只 理解 SCSI 语言 ， 而 SCSI 语言 是 处 理 硬盘 LBA 块 的 ， 即 告诉 硬盘 读 或 者 写 
某 些 LBA 地 址 上 的 扇 区 ( 块 )， 而 不 可 能 告诉 硬盘 读 写 某 个 文件 。 文 件 这 个 层次 的 
功能 是 由 运行 在 主机 上 的 文件 系统 代码 所 实现 的 ， 所 以 硬盘 必须 将 数据 先 传送 到 
主机 内 存 由 文件 系统 处 理 ， 然 后 再 发 向 另外 的 硬盘 。 
这 就 是 SCSI 的 网 络 层 。 每 个 节点 都 在 有 条 不 京 地 和 控制 器 交互 着 数据 。 

3. SCSI 协议 的 传输 层 

OSI 模型 中 的 传输 层 的 功能 就 是 保障 此 端的 数据 成 功 地 传送 到 彼 端 。 与 链 路 层 不 同 的 
是 ， 链 路 层 只 是 保障 线路 两 端 数据 的 传送 ， 而 且 一 旦 某 个 帧 出 错 ， 链 路 层 程序 本 身 不 会 重 
新 传送 这 个 帧 。 所 以 ， 需 要 有 一 个 端 到 端的 机 制 来 保障 传输 ， 这 个 机 制 是 运行 在 通信 双方 
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最 终 的 两 端的 ， 而 不 是 某 个 链 路 的 两 端 。 

图 3.28 显示 了 SCSI 协议 是 如 何 保障 每 个 指令 都 被 成 功 传送 到 对 方 的 。 

11 发 起 方 在 获得 总 线 仲裁 之 后 ， 会 发 送 一 个 SCS1 Command 写 命令 帧 ， 其 中 包含 对 
应 的 LUN 号 以 及 LBA 地 址 段 。 接 收 端 接收 后 , 就 知道 下 一 步 对 方 就 要 传输 数据 了 。 
接收 方 做 好 准备 后 ， 向 发 起 方 发 送 一 个 XFER_RDY 帧 ， 表 示 已 经 做 好 接收 准备 ， 
可 以 随时 发 送 数据 。 

2] 发 起 方 收 到 XFER_RDY 帧 之 后 ， 会 立即 发 送 数据 。 每 发 送 一 帧 数据 ， 接 收 方 就 回 
送 一 个 XFER_RDY 帧 ,表示 上 一 帧 成 功 收 到 并 且 无 错误 ， 可 以 立即 发 送 下 一 帧 ， 
直到 数据 发 送 结 束 。 

3] 接收 方 发 送 一 个 RESPONSE 帧 来 表示 这 条 SCSI 命令 执行 完毕 。 

图 3.29 是 一 个 SCSI 读 过 程 的 示意 图 。 
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图 3.28_ 控制 器 向 设备 发 送 数据 ( 写 入 数据 ) B» 控制 器 和 设备 读 取 数 据 


1] 发 起 方 在 获得 总 线 仲 裁 之 后 ， 会 发 送 一 个 SCSI Command 读 命 令 帧 。 接 收 端 接收 
后 ,立即 将 该 命令 中 给 出 的 LUN 以 及 LBA 地 址 段 的 所 有 扁 区 的 数据 读 出 ,传送 给 
发 起 端 。 
21 所 有 数据 传输 结束 后 ， 目 标 端 发 送 一 个 RESPONSE 帧 来 表示 这 条 SCS 命令 执行 
完毕 。 
SCSI 协议 语言 就 是 利用 这 种 两 端 节点 之 间 相 互 传送 一 些 控制 帧 ， 来 达到 保障 数据 成 功 
传输 的 目的 。 
4. SCSI 协议 的 会 话 层 、 表 示 层 和 应 用 层 
会 话 层 、 表 示 层 和 应 用 层 是 0SI 模型 中 最 上 面 的 三 层 ， 是 与 底层 网 络 通信 语言 无 关 的 ， 
底层 语言 没有 必要 了 解 上 层 语言 的 含义 。 有 没有 会 话 层 ， 完 全 取决 于 利用 这 个 协议 进行 通 
信 的 应 用 程序 。 这 里 我 们 就 不 再 详 述 了 。 


3.6 ”磁盘 控制 器 、 驱 动 器 控制 电路 和 磁盘 控制 器 驱动 程序 


3.6.1 磁盘 控制 器 


硬盘 的 接口 包括 了 物理 接口 ， 也 就 是 硬盘 接 入 到 磁盘 控制 器 上 需要 用 的 接口 ， 具 体 的 
针 数 、 某 个 针 的 作用 等 。 除 了 物理 接口 规范 之 外 ， 还 定义 了 一 套 指令 系统 ， 叫 做 逻辑 接口 。 
磁盘 通过 物理 线 缆 和 接口 连接 到 磁盘 控制 器 之 后 ， 若 想 在 磁盘 上 存放 一 个 字母 应 该 怎么 操 
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fe? 这 是 需要 业界 定义 的 很 重要 的 东西 。 指 令 集 定 义 了 “怎样 向 磁盘 发 送 数据 和 从 磁盘 读 
取 数 据 ”。 但 是 这 套 指令 集 ， 不 是 由 CPU 直接 执行 代码 来 生成 指令 的 ， 而 是 由 专门 的 芯片 
或 者 集成 到 南 桥 上 的 某 个 部 分 来 负责 的 , 这 就 是 磁盘 控制 器 , 如 ATA 控制 器 或 SCSI 控制 器 。 
磁盘 控制 器 的 作用 是 参与 底层 的 总 线 初始 化 、 仲 裁 等 过 程 ， 将 这 些 太 过 底层 的 机 制 过 滤 掉 ， 
从 而 向 驱动 程序 提供 一 种 简洁 的 接口 。 驱 动 程序 只 要 将 要 读 写 的 设备 号 、 读 写 的 初始 地 址 
和 长 度 告诉 控制 器 即 可 ， 剩 下 的 都 由 控制 器 来 做 ， 比 如 总 线 申 请 等 。 


3.6.2 驱动 器 控制 电路 


应 该 将 磁盘 控制 器 和 磁盘 驱动 器 的 控制 电路 区 别 开 来 ， 二 者 是 作用 于 不 同 物理 位 置 的 。 
磁盘 驱动 器 控制 电路 位 于 磁盘 驱动 器 上 ， 它 专门 负责 直接 驱动 磁头 臂 做 运动 来 读 写 数据 ， 
而 主板 上 的 磁盘 控制 器 专门 用 来 向 磁盘 驱动 器 的 控制 电路 发 送 指令 ， 从 而 控制 磁盘 驱动 器 
读 写 数据 。 由 磁盘 控制 器 对 磁盘 驱动 器 发 出 指令 ， 进 而 操作 磁盘 ，CPU 做 的 仅仅 是 操作 控 
制 器 就 可 以 了 。 来 梳理 一 下 这 个 结构 ，CPU 通过 主板 上 的 导线 发 送 指令 给 同样 处 于 主板 上 
的 磁盘 控制 器 ， 磁 盘 控 制 器 继而 通过 线 缆 发 送 指令 给 磁盘 驱动 器 ， 由 磁盘 驱动 器 来 控制 磁 
XS. 

CPU 操作 控制 器 不 需要 多 少 复杂 的 指令 ，CPU 操作 控制 器 的 指令 系统 叫做 磁盘 控制 器 
驱动 程序 。CPU 通过 执行 磁盘 控制 器 驱动 程序 ， 生 成 指令 发 送 给 磁盘 控制 器 ， 控 制 器 收 到 
这 些 指令 后 ， 通 过 电路 逻辑 运算 生成 另 一 种 指令 ， 也 就 是 发 送 给 磁盘 驱动 器 的 指令 ， 这 些 
指令 就 是 常 说 的 ATA 指令 集 或 者 SCSI 指令 集 。ATA 指令 集 是 由 ATA 磁盘 控制 器 发 送 给 IDE 
磁盘 驱动 器 的 ， 而 SCSI 指令 集 是 由 SCSI 磁盘 控制 器 发 送 给 SCSI 磁盘 驱动 器 的 。 


3.6.3 磁盘 控制 器 驱动 程序 


那么 机 器 刚 通电 ， 操 作 系统 还 没有 启动 起 来 并 加 载 磁盘 控制 器 驱动 的 时 候 ， 此 时 是 怎 
么 访问 磁盘 的 呢 ? 

CPU 必须 执行 磁盘 控制 器 驱动 程序 才能 产生 将 要 发 送 给 磁盘 驱动 器 控制 电路 的 指令 ， 
才能 读 写 数据 。 不 过 ， 系 统 BIOS 中 存放 了 初始 化 系统 所 必需 的 基本 代码 。 系 统 BIOS 初始 
化 过 程 中 有 这 么 一 步 ， 就 是 去 查找 磁盘 控制 器 的 BI0S 地 址 ， 然 后 执行 这 个 地 址 上 的 代码 ， 
也 就 是 磁盘 控制 器 的 BIOS 代码 。 来 初始 化 磁盘 控制 器 ， 并 向 系统 BIOS 报告 控制 器 所 掌管 
的 磁盘 设备 的 情况 。 最 后 BIOS 让 CPU 发 送 指令 , 提取 磁盘 的 0 磁道 的 第 一 个 扇 区 中 的 代码 
载 入 内 存 执行 ， 从 而 加 载 05。 

所 以 说 系统 BIOS 中 是 包含 基本 的 磁盘 控制 器 驱动 程序 的 ， 只 不 过 功能 不 完善 而 已 。 在 
os 内 核 启动 过 程 中 , 会 用 自己 的 完整 的 、 全 功能 的 磁盘 控制 器 驱动 来 接管 一 开始 被 CPU 执 
行 的 系统 BIOS 中 的 简化 驱动 。 当 然 ，BIOS 中 也 要 包含 键盘 驱动 ， 如 果 支 持 USB 移动 设备 
启动 ， 还 要 有 USB 驱动。 

图 3.30 显示 了 磁盘 控制 器 驱动 程序 、 磁 盘 控 制 器 和 磁盘 驱动 器 控制 电路 三 者 的 关系 。 

大 家 应 该 了 解 ， 如 果 要 向 SCS 磁盘 上 安装 操作 系统 ， 则 安装 之 前 需要 手动 加 载 SCSI 
驱动 ， 这 样 才能 在 安装 程序 的 磁盘 列表 中 找到 正确 的 磁盘 。 因 为 CPU 只 有 通过 执行 磁盘 控 
制 器 驱动 程序 才能 向 磁盘 驱动 器 发 指令 从 而 读 取 数 据 ， 如 果 此 时 CPU 不 知道 去 哪里 执行 驱 
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动 程序 ， 


当然 也 就 无 法 和 磁盘 控制 器 通信 了 , 磁盘 控制 器 也 就 无 法 发 出 SCSI RA ATA 指令 了 。 
SCSI 或 者 
DEZO 
2、 产 生 指令 Pi Ae 
t SCSI 或 者 ilti 
(csi 南 标 上 的 和 ADR 
北 BEBM m" 图 控制 电路 
4. WEB 
X HET 
TOU [EE 
Ani 
Burm 
Aun 
在 内 存 中 


3.30 ”磁盘 控制 器 驱动 程序 、 磁 盘 控 制 器 和 磁盘 驱动 器 控制 电路 三 者 的 关系 


在 启动 操作 系统 之 前 ，CPU 都 是 直接 从 ROM 的 地 址 中 来 执行 磁盘 控制 器 驱动 程序 的 ， 
直到 驱动 程序 本 身 的 数据 从 硬盘 读 入 到 内 存 之 后 .此 时 就 会 发 生 一 个 跳 转 , CPU 不 再 从 ROM 
地 址 中 提取 驱动 程序 来 执行 ， 而 是 向 RAM 中 的 对 应 地 址 来 提取 驱动 程序 代码 执行 ， 此 时 
ROM 才 真正 发 挥 完 它 的 作用 。 同 样 ， 如 果 从 USB 设备 启动 ，0S 自身 的 USB 驱动 没有 加 载 


到 RAM 之 前 ， 也 是 由 ROM 来 提供 简化 USB 驱动 的 。 


安装 操作 系统 时 , 也 可 以 从 ROM 中 执行 驱动 程序 代码 ,但 是 ROM 的 速度 远 远 没有 RAM 
快 , 由 于 安装 操作 系统 主要 是 向 磁盘 写 入 数据 , 所 以 驱动 程序 只 能 一 直 从 ROM 中 读 取 执 行 ， 
这 样 就 会 变 得 很 慢 。 如 果 操 作 系统 已 经 安装 好 ， 启 动 之 初 从 ROM 中 读 取 驱动 程序 执行 也 会 


很 慢 ， 


但 是 一 旦 将 OS 本 身 的 驱动 程序 读 入 内 存 并 跳 转 到 内 存 来 执行 ， 抛 弃 了 ROM, WE 


就 立即 增加 了 。 而 这 一 小 段 时间 的 慢 速 是 可 以 接受 的 ， 而 且 是 不 得 不 接受 的 (总 不 能 每 次 启 
动 操作 系统 的 时 候 都 手动 加 载 驱动 吧 )。 


但 


是 安装 过 程 中 需要 在 内 存 中 没有 驱动 程序 代码 的 情况 下 向 磁盘 复制 大 量 数据 的 ， 这 
二 速度 太 慢 是 不 能 容忍 的 ， 所 以 必须 手动 加 载 驱动 程序 到 内 存 执 行 ， 然 后 再 进行 安装 。 


也 可 以 将 ROM 中 的 驱动 程序 代码 复制 到 内 存 执行 ， 但 是 ROM 中 的 代码 都 是 非常 简 
用 版 本 ， 功 能 有 限 ， 只 能 用 作 操 作 系统 启动 这 种 临时 任务 ， 用 于 安装 操作 系统 ， 性 


能 是 很 差 的 。 那 么 为 何 向 ATA 磁盘 安装 操作 系统 不 需要 加 载 驱动 呢 ? 这 是 因为 SCSI 卡 的 生 
产 商 很 多 , 各 自 都 有 自己 特别 的 功能 , 而 ATA 已 经 是 非常 成 熟 的 技术 , 控制 器 一 般 都 是 Intel 
的 ， 所 以 操作 系统 安装 程序 在 初始 化 执行 的 时 候 ， 就 已 经 自行 加 载 了 ATA 驱动 。 


Um CPU 执行 控制 器 驱动 程序 而 发 给 控制 器 的 信号 ， 不 是 ATA 或 者 SCSI 指令 集 ， 


指令 集 仅仅 指 的 是 控制 器 到 硬盘 驱动 器 之 间 的 数据 交互 协议 。 而 驱动 程序 所 生 


c 成 的 信号 只 是 告诉 硬盘 控制 器 去 读 或 写 总 线 上 的 哪个 设备 ， 地 址 段 是 多 少 ， 读 
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出 之 后 是 否 直接 写 入 内 存 (DMA) 等 。 而 SCSI 总 线 的 仲裁 等 过 程 完全 是 靠 控制 
器 自己 电路 的 逻辑 来 完成 的 ，CPU 不 需要 参与 仲裁 运算 ， 只 管 在 任意 时 刻 向 控 
制 器 读 写 数 据 即 可 。 


第 OQ B AANB — m ENGESNAHR 


3.7 ”内 部 传输 速率 和 外 部 传输 速率 


3.7.1 内 部 传输 速率 


磁盘 的 内 部 传输 速率 指 的 是 磁头 读 写 磁盘 时 的 最 高 速率 。 这 个 速率 不 包括 寻 道 以 及 等 
待 扇 区 旋转 到 磁头 下 所 耗费 时 间 的 影响 。 它 是 一 种 理想 情况 ， 即 假设 磁头 读 写 的 时 候 不 需 
要 换 道 ， 也 不 专门 读 取 某 个 扇 区 ， 而 是 只 在 一 个 磁道 上 连续 地 循环 读 写 这 个 磁道 的 所 有 扇 
区 ， 此 时 的 速率 就 叫做 硬盘 的 内 部 传输 速率 。 
通常 ， 每 秒 10000 转 的 SCSI 硬盘 的 内 部 传输 速率 的 数量 级 大 概 在 1000MB/s 左右 。 但 
是 为 何 实际 使 用 硬盘 的 时 候 ， 比 如 复制 一 个 文件 ， 其 传输 速率 充其量 只 是 每 秒 几 十 兆 字 节 
呢 ? 原因 就 是 磁头 需要 不 断 换 道 。 


THA 闪电 侠 正 在 做 数学 题 ， 假 设 我 们 不 打 断 他 ， 他 每 秒 能 连续 做 100 道 数学 题 ， 此 
T 时 我 们 每 隔 0.1 秒 ， 就 和 他 交谈 打上 断 他 一 次 ， 每 次 交谈 的 时 间 是 05 秒 。 也 就 
是 说 闪电 侠 实 际 上 做 数学 题 的 时 间 是 每 隔 0.5 秒 做 一 次 ， 每 次 只 能 做 0.1 秒 的 
时 间 。 这 样 ， 每 0.6 秒 闪 电 侠 只 能 做 10 道 题 ， 那 么 可 以 计算 出 闪电 侠 实 际 每 秒 
能 做 的 数学 题 只 有 区 区 16 道 , 这 和 我 们 不 打 断 他 时 的 每 秒 100 道 题 相 比 差 了 6 
f$. 


同样 ， 磁 盘 也 是 这 个 道理 ， 我 们 不 断 地 用 换 道 来 打 断 磁头 。 磁 头 滑 过 盘 片 一 轿 ， 只 需 
要 很 短 的 时 间 ， 而 换 道 所 需 的 时 间 远 远 比 盘 片 旋转 一 圈 耗 费 的 时 间 多 ， 所 以 造成 磁盘 整体 
外 部 传输 速率 显著 下 降 。 有 人 问 ， 必 须要 换 道 么 ?如果 要 读 写 的 数据 仅仅 在 一 条 磁道 上 ， 
那 是 可 以 获得 极 高 的 传输 速率 的 ， 但 是 这 个 并 不 容易 实现 。 如 今 ， 随 着 硬盘 容量 的 加 大 
应 用 程序 产生 的 文件 更 是 在 肆 无 忌 习 地 加 大 ， 动 辑 几 十 、 几 百 兆 甚至 上 GB 大 小 ， 敢 问 这 种 
文件 用 一 个 磁道 能 放下 么 ? 显然 不 能 。 
所 以 ， 磁 头 必 须 不 断 地 被 “ 打 断 ”去 进行 换 道 操 作 ， 整 体 传输 速率 就 会 大 大 降低 。 实 
际 中 一 块 10000 转 的 SCSI 硬盘 的 实际 外 部 传输 速率 也 只 有 80MB/s 左右 。 为 了 避免 磁头 被 
不 断 打 断 的 问题 ， 人 们 发 明了 RAID 技术 ， 让 一 个 硬盘 的 磁头 在 换 道 时 ， 另 一 个 磁盘 的 磁头 
在 读 写 。 如 果 有 很 多 磁盘 联合 起 来 ， 同 一 时 刻 总 有 某 块 硬盘 的 磁头 在 读 写 状 态 而 不 是 都 在 
换 道 状态 , 这 就 相当 于 一 个 大 虚拟 磁盘 的 磁头 总 是 处 于 读 写 状态 , 所 以 RAID 可 以 显著 提升 
传输 速率 。 不 仅 如 此 ， 如 果 我 们 将 RAID 阵列 再 次 进行 联合 ， 就 能 将 速率 在 RAID 提速 的 基 
础 上 ， 再 次 成 倍 地 增加 。 这 种 工作 ， 就 需要 大 型 磁盘 阵列 设备 来 做 了 ， 磁 盘 阵 列 技术 将 在 
本 书 第 6 ENA. 

ma 
RAID 技术 的 细节 在 本 书 第 4 FaN. 
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372 外 部 传输 速率 


磁头 从 盘 片 上 将 数据 读 出 ， 然 后 存放 到 硬盘 驱动 器 电路 板 上 的 缓存 芯片 内 ， 再 将 数据 
从 缓存 内 取出 ， 通 过 外 部 接口 传送 给 主板 上 的 硬盘 控制 器 。 从 外 部 接口 传送 给 硬盘 控制 器 
时 候 的 传输 速率 ， 就 是 硬盘 的 外 部 传输 速率 。 这 个 动作 是 由 硬盘 的 接口 电路 来 发 起 和 控制 
的 。 接 口 电路 和 磁头 控制 电路 是 不 同 的 部 分 ， 磁 头 电路 部 分 是 超 精密 高 成 本 的 部 件 ， 保 证 
磁头 读 写 时 候 的 高 速率 。 但 是 因为 磁头 要 被 不 断 地 打 断 ， 所 以 外 部 接口 传输 速率 无 须 和 磁 
头 传输 速率 一 样 ， 只 要 满足 最 终 的 实际 速率 即 可 。 外 部 接口 的 速率 通常 大 于 实际 使 用 中 磁 
头 读 写 数据 的 速率 (计算 入 换 道 的 损失 )。 


3.8 ”并行 传输 和 串 行 传输 


381 并 行 传输 


来 举 一 个 例子 ， 有 8 个 数字 从 1 到 8， 需 要 传送 给 对 方 。 此 时 我 们 可 以 与 对 方 连接 8 

条 线 ， A 上 传输 一 个 字符 ， 这 就 是 并 行 传输 。 并 行 传输 要 求 通信 双方 之 间 的 距离 足够 
短 。 因 为 如 果 距 离 很 长 ， 那 么 这 8 条 线 上 的 数字 因为 导线 电阻 不 均衡 以 及 其 他 各 种 原因 的 

影响 ， 最 终 到 达 对 方 的 速度 就 会 显现 出 差距 ， 从 而 造成 接收 方 必须 等 8 条 线 上 的 所 有 数字 
都 到 达 之 后 ， 才能 发 起 下 一 轮 传 送 。 
并 行 传输 应 用 到 长 距离 的 连接 上 就 无 优点 可 言 了 。 首 先 ， 在 长 距离 上 使 用 多 条 线路 要 
比 使 用 一 条 单独 线路 昂贵 ， 其 次 ， 长 距离 的 传输 要 求 较 粗 的 导线 ， 以 便 降 低 信号 的 衰减 ， 
这 时 要 把 它们 捆 到 一 条 单独 电缆 里 相当 困难 。IDE 硬盘 所 使 用 的 40 或 者 80 芯 电 线 就 是 典 
型 的 并 行 传输 。40 芯 中 有 32 芯 是 数据 线 ， 芯 是 承载 其 他 控制 信号 用 的 。 所 以 ， 这 
种 接口 一 次 可 以 同时 传输 32bit 的 数据 ， 也 就 是 4 字 节 。 


a IO 延迟 与 Queue Depth 
A IO 延迟 是 指控 制 器 将 IO 指令 发 出 之 后 ,直到 IO 完成 的 过 程 中 所 耗费 的 时 间 。 

目前 业界 有 不 成 文 的 规定 ， 只 要 IO 延迟 在 20ms 以 内 ， 此 时 IO 的 性 能 对 于 应 用 
程序 来 说 都 是 可 以 接受 的 ， 但 是 如 果 大 于 20ms， 应 用 程序 的 性 能 将 会 受到 比较 大 
的 影响 。 
我 们 可 以 推算 出 ， 存 储 设备 应 当 满 足 的 最 低 IOPS 要 求 应 该 为 1000/20 = 50, 
即 只 要 存储 设备 能 够 提供 每 秒 50 次 IO， 则 就 能 够 满足 IO 延迟 小 于 等 于 20ms 的 
要 求 。 但 是 每 秒 50 次 ， 这 显然 太 低估 存储 设备 的 能 力 了 。 

单 块 SATA 硬盘 能 够 提供 最 大 两 倍 于 这 个 最 低 标准 的 数值 ， 而 FC 磁盘 则 可 
以 达到 4 倍 于 这 个 数值 。 而 对 于 大 型 磁盘 阵列 设备 ， 由 若干 磁盘 共同 接受 ID， 加 
上 若干 个 IO 通道 并 行 工作 ， 目 前 中 高 端 设备 达到 十 几 万 的 IOPS 已 经 不 成 问题 。 

然而 ， 不 能 总 以 最 低 标准 来 要 求 存储 设备 。 当 接受 IO 很 少 的 时 候 ，IO 延迟 
一 般 会 很 小 , 比如 Ims 甚至 小 于 Ims. 此 时 ,每 个 IO 通道 的 IOPS = 1000/1 = 1000, 
这 个 数值 显然 也 不 对 ， 上 文 所 述 的 几 十 万 IOPS， 如 果 每 个 IO 通道 仅 提供 1000 的 
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IOPS, 那么 达到 几 十 万 ,需要 几 百 路 IO 通道 ,这 显然 不 切实 际 .那么 几 十 万 的 TOPS 

么 达到 的 呢 ? 这 就 引出 了 另 一 个 概念 : Queue Depth. 

控制 器 向 存储 设备 发 起 的 指令 ， 不 是 一 条 一 条 顺序 发 送 的 ， 而 是 一 批 一 批 的 
发 送 ， 存 储 目标 设备 批量 执行 IO ， 然 后 将 数据 和 结果 返回 控制 器 。 也 就 是 说 ， 只 
要 存储 设备 肚 量 和 消化 能 力 足 够 ， 在 10 比较 少 的 时 候 ， 处 理 一 条 指令 和 同时 处 理 
多 条 指令 将 会 耗费 几乎 相同 的 时 间 。 控 制 器 所 发 出 的 批量 指令 的 最 大 条 数 ， 由 控 
制 器 上 的 Queue Depth 决定 。 如 果 连 接 外 部 独立 磁盘 阵列 ,， 则 一 般 主 机 控制 器 端 可 
以 将 其 Queue Depth 设置 为 64、128 等 值 ， 视 情况 而 定 。 

如 果 给 出 Queue Depth. IOPS. IO 延迟 三 者 中 的 任意 两 者 ， 则 可 以 推算 出 第 
三 者 , 公式 为 : IOPS = (Queue Depth) x (IO Latency). 实际 上 , 随 着 Queue Depth 
的 增加 ，IO 延迟 也 会 随即 增加 ， 二 者 是 互相 促进 的 关系 ， 所 以 ， 随 着 IO 数目 的 
增多 ， 将 很 快 达到 存储 设备 提供 的 最 大 IOPS 处 理 能 力 ， 此 时 IO 延迟 将 会 陡峭 的 
升 高 ， 而 IOPS 则 增加 缓慢 。 好 的 存储 系统 ， 其 IO 延迟 的 增加 应 该 是 越 缓 慢 越 好 ， 
也 就 是 说 存储 设备 内 部 应 该 具有 快速 IO 消化 能 力 。 而 对 于 消化 不 良 的 存储 设备 ， 
其 IO 延迟 将 升 高 地 很 快 ， 以 致 于 在 IOPS 较 低 时 ，IO 延迟 已 经 达到 了 20ms 的 可 
接受 值 。 消 化 能 力 再 高 ， 也 有 饱和 的 时 候 。 如 图 3.31 所 示 。 


消化 不 


IDPs 


3.31 10 延迟 与 Queue Depth 示意 图 


382 串 行 传输 


还 是 上 面 的 例子 ， 如 果 只 用 一 条 连 线 来 连接 到 对 方 ， 则 我 们 依次 在 这 条 线 上 发 送 这 8 
个 数字 ， 需要 发 送 8 次 才能 将 数字 全 部 传送 到 对 方 。 串 行 传输 在 效率 上 ， 显 然 比 并 行 传 
低 得 多 。 但 是 串 行 也 有 串 行 的 优势 ， 就 是 凭借 这 种 优势 使 得 硬盘 的 外 部 接口 已 经 彻底 被 串 行 
传输 所 占领 。USB 接口 、 IER GOL MEA OM AGI. rr EE 

并 行 传输 表面 上 看 来 比 串 行 传输 效率 要 高 很 多 倍 ， 但 是 并 行 传输 有 不 可 逾越 的 技术 困 
难 ， 那 就 是 它 的 传输 频率 不 可 太 高 。 E. 数据 线 之 间 会 产生 很 大 
的 和 干扰， 造成 数据 出 错 ， 所 以 必须 增加 屏蔽 线 。 即 使 加 了 屏蔽 线 ， 也 不 能 保证 屏蔽 掉 更 高 
的 频率 干扰 。 所 以 并 行 传输 效率 高 但 是 速度 慢 。 而 串 行 传输 则 刚好 相反 ， 效 率 是 最 低 的 ， 
每 次 只 传输 一 位 ,但 是 它 的 速度 非常 高 ， 现 在 已 经 可 以 达到 10Gb/s 的 传输 速率 ， 但 传输 导 

这 样 算 来 ， 串 行 传输 反而 比 并 行 传输 的 总 体 速率 更 快 。 串 行 传输 不 仅仅 用 于 远 距 离 通 
信 ， 现 在 就 连 PCI 接口 都 转向 了 串 行 传输 方式 。PCIE 接口 就 是 典型 的 串 行 传输 方式 ， 
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条 线路 传输 速率 高 达 2.5Gb/s， 还 可 以 在 每 个 接口 上 将 多 条 线路 并 行 ， 从 而 将 速率 翻 倍 ， 比 


如 AX 的 PCIE 最 高 可 达 16X， 也 就 是 说 将 16 条 2.5Gb/s 的 线路 并 


F 行 连接 到 对 方 。 这 仿佛 又 


回 到 了 并 行 时 代 ， 但 是 也 只 有 在 短 距离 传输 上 ， 比 如 主板 上 的 各 个 部 件 之 间 ， 才 能 承受 如 
此 高 速 的 并 行 连接 ， 远 距离 传输 是 达 不 到 的 。 


3.9 磁盘 的 IOPS 和 传输 带宽 (吞吐 量 ) 


3.9.1 1I0PS 


磁盘 的 IOPS， 也 就 是 每 秒 能 ; 


E 行 多 少 次 10， 每 次 10 根据 写 入 数据 的 大 小 ， 这 个 值 也 
不 是 固定 的 。 如 果 在 不 频繁 换 道 的 情况 下 ， 每 次 10 都 写 入 很 大 的 一 块 连续 数据 ， 则 此 时 


秒 所 做 的 10 次 数 是 比较 低 的 ; 如 果 磁 头 频繁 换 道 ， 每 次 写 入 数据 还 比较 大 的 话 ， 此 时 IOPS 
应 该 是 这 块 硬盘 的 最 低 数值 了 ， 如 果 在 不 频繁 换 道 的 条 件 下 ， 每 次 写 入 最 小 的 数据 块 ， 
如 512 字 节 ， 那 么 此 时 的 IOPS 将 是 最 高 值 ， 如 果 使 10 的 payload 长 度 为 0， 只 包含 开销 ， 
这 样 形成 的 IOPS 则 为 理论 最 大 极限 值 。IOPS 随 着 上 层 应 用 的 不 同 而 有 很 大 变化 。 


HOS 如 何 才 算 一 次 IO 呢 ? 这 是 很 多 人 都 没有 弄 清 楚 的 问题 ， 也 是 定义 很 混乱 的 一 
个 问题 。 其 根本 原因 就 在 于 一 次 IO 在 系统 路 径 的 每 个 层次 上 都 有 自己 的 定义 。 


R55: 整个 系统 是 由 一 个 一 个 的 层次 模块 组 合 而 成 的 ， 每 个 模块 之 间 都 有 各 自 的 接 
口 ， 而 在 接口 间 流动 的 数据 就 是 IJO。 那 么 如 何 才 算 “一 次 ”IO 呢 ? 以 下 列举 
了 各 个 层次 上 的 “一 次 ”IO 的 定义 。 
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应 用 程序 向 操作 系统 请 求 : “R Ci\read.txt 到 我 的 缓冲 区 ”。 操 作 系统 
读 取 后 返回 应 用 程序 一 个 信号 ， 这 次 IO 就 完成 了 。 这 就 是 应 用 程序 做 的 一 
次 IO。 

文件 系统 向 磁盘 控制 器 驱动 程序 请 求 : “ 读 取 从 LBA10000 开始 的 后 128 
MAE” ， 然 后 “请 读 取 从 LBA50000 开始 的 后 64 遍 区 ”， 这 就 是 文件 系 
统 向 下 做 的 两 次 ID。 这 两 次 IO, 假设 对 应 了 第 一 步 里 那个 应 用 程序 的 请 求 。 
磁盘 控制 器 驱动 程序 用 信号 来 驱动 磁盘 控制 器 向 磁盘 发 送 SCSI 指令 和 数 
H. 对 于 SCSI 协议 来 说 , 完成 一 次 连续 LBA 地 址 扇 区 的 读 写 就 算 一 次 IO. 
但 是 为 了 完成 这 次 读 或 者 写 ， 可 能 需要 发 送 若 干 条 SCSI 指令 帧 。 从 最 底层 
来 看 , 每 次 向 磁盘 发 送 一 个 SCSI 帧 ， 就 算 一 次 IO, 这 也 是 最 细 粒 度 的 IO。 
但 是 通常 说 磁盘 IO 都 是 指 完成 整个 一 次 SCSI ARA S. 

如 果 在 文件 系统 和 磁盘 之 间 再 插入 一 层 卷 管理 层 ， 或 在 磁盘 控制 器 和 磁盘 
之 间 再 插入 一 层 RAID 虚拟 化 层 , 那么 上 层 的 一 次 10 就 往往 会 演变 成 下 层 
的 多 次 IO。 

对 于 磁盘 来 说 ， 每 次 IO 就 是 指 一 次 SCSI 指令 交互 回合 。 一 个 回合 中 可 能 
包含 了 若干 SCSI 指令 ， 而 这 一 个 回合 里 却 只 能 完成 一 次 IO， 比 如 “ 读 取 
从 LBA10000 开始 的 后 128 AAR” 。 


比 


例如 ， 写 入 10000 个 大 小 为 1KB 的 文件 到 硬盘 上 ， 耗 费 的 时 间 要 比 写 入 一 个 10MB X 
小 的 文件 多 得 多 ， 虽 然 数据 总 量 都 是 10MB。 因 为 写 入 10000 个 文件 时 ， 根 据 文件 分 布 情 
况 和 大 小 情况 , 可 能 需要 做 好 几 万 甚至 十 几 万 次 10 才能 完成 。 而 写 入 一 个 10MB 的 大 文件 ， 


如 果 这 个 文件 在 磁盘 上 是 连续 存放 的 ， 那 么 只 需要 几 十 个 I0 就 可 以 完成 。 


对 于 写 入 10000 个 小 文件 的 情况 ， 因 为 每 秒 需要 的 10 非常 高 ,所 以 此 时 如 果 用 具有 较 


高 OPS 的 磁盘 ， 将 会 提速 不 少 。 而 写 入 一 个 10MB 文件 的 情况 ， 就 算 用 了 有 较 高 10PS 的 


硬盘 来 做 ， 也 不 会 有 提升 ， 因 
宽 的 硬盘 ， 才 能 体现 出 优势 。 


为 只 需要 很 少 的 10 就 可 以 完成 了 ， 只 有 换 用 具有 较 大 传输 带 


同一 块 磁盘 在 读 写 小 块 数据 的 时 候 是 比较 高 的 。 而 读 写 大 块 数据 的 时 候 是 比较 低 的 ， 


因为 读 写 花费 的 时 间 变 长 了 。15000 转 的 硬盘 比 10000 转 的 硬盘 性 能 要 高 。 图 3.32 所 示 为 


磁盘 IOPS 性 能 与 10 SIZE 的 关系 曲线 。 
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传输 带宽 指 的 是 硬盘 或 设备 在 传输 数据 的 时 候 数 据 流 的 速度 。 还 是 刚才 那个 例子 ， 如 
WEA 10000 个 1KB 的 文件 需要 10s， 那 么 此 时 的 传输 带宽 只 能 达到 每 秒 1MB， 而 写 入 一 
个 10MB 的 文件 用 了 0.1s， 那 么 此 时 的 传输 带宽 就 是 100MB/s。 所 以 ， 即 使 同一 块 硬盘 在 
写 入 不 同 大 小 的 数据 时 ， 表 现 出 来 的 带宽 也 是 不 同 的 。 具 有 高 带宽 规格 的 硬盘 在 传输 大 块 
连续 数据 时 具有 优势 ， 而 具有 高 10PS 的 硬盘 在 传输 小 块 不 连续 的 数据 时 具有 优势 。 

同样 ， 对 于 一 些 磁 盘 阵 列 来 说 ， 也 有 这 两 个 规格 。 一 些 高 端 产 品 同时 具备 较 高 的 IOPS 
和 带宽 ， 这 样 就 可 以 保证 在 任何 应 用 下 都 能 表现 出 高 性 能 。 
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我 们 
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3.10 小 结 : 


网 中 有 了 网， 网 中 之 网 
图 3.33 来 作为 本 章 的 结束 。 
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第 3 章 我 们 介绍 了 磁盘 的 内 部 原理 、 构 造 以 及 外 部 的 接口 系统 。 但 是 一 块 磁盘 的 
容量 是 有 限 的 ， 速 度 也 是 有 限 的 。 对 一 些 应 用 来 说 ， 可 能 需要 上 百 吉 字 节 (GB) 甚 至 几 
太 字 节 (TB) 大 小 的 分 区 来 存放 数据 。 目 前 磁盘 单 块 容量 最 多 能 到 1TB， 这 对 于 现代 应 
用 程序 来 说 远 远 不 够 。 

那么 我 们 必须 要 制造 单 盘 容量 更 大 的 硬盘 么 ? 为 解决 这 个 问题 , 人 们 发 明了 RAID 
技术 ， 即 Redundant Array of Independent Disks 技术 ， 中 文 意思 是 由 独立 的 磁盘 组 成 的 
具有 宛 余 特 性 的 阵列 。 既 然 是 阵列 ， 那 一 定 需 要 很 多 磁盘 来 组 成 ;既然 是 具有 宛 余 特 
性 的 ， 那 一 定 可 以 允许 某 块 磁盘 损坏 之 后 ， 数 据 仍然 可 用 。 下 面 我 们 就 来 看 一 下 RAID 
是 怎样 炼 成 的 。 
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4.1 大 话 七 种 RAID 武器 


话说 几 千年 前 ， 有 位 双 刀 大 侠 ， 左 右手 各 拿 一 把 大 刀 。 开 始 的 时 候 ， 他 总 是 单独 使 
每 把 刀 ， 要 么 用 左手 刀 ， 要 么 用 右手 刀 。 但 是 总 被 人 打败 ， 郁 闷 至 极 ， 于 是 苦心 悟道 ， 静 
心 修炼 。 他 逐渐 模 索 出 一 套 刀 法 ， 自 称 “ 合 一 刀 法 ”， 即 双 刀 并 用 。 外 人 看 不 见 他 的 第 二 
把 刀 ， 只 能 看 到 他 拿 着 一 把 刀 。 他 把 两 把 刀 的 威力 ， 合 二 为 一 ， 成 为 一 把 大 刀 ! 

而 这 种 双 刀 合 一 的 刀 法 ， 又 可 以 分 为 两 条 路 子 ， 一 条 是 常规 路 子 ， 即 这 把 合 二 为 一 的 
大 刀 ， 其 实 每 出 一 招 只 有 原来 一 把 刀 的 威力 ， 但 是 后 劲 更 足 了 。 一 把 刀 项 不 起 来 的 时 候 ， 
可 以 第 二 把 刀 上 阵 。 对 于 敌人 来 说 ， 还 是 只 看 见 一 把 大 刀 。 另 一 条 是 野 路 子 ， 野 路 子 往往 
效果 很 好 ， 每 出 一 招 总 是 具有 两 把 刀 的 威力 之 和 ， 而 且 也 具有 两 把 刀 的 后 劲 ! 他 实现 这 个 
时 路 子 的 方法 ， 便 是 界 内 早 有 的 思想 分 而 治之 ! 也 就 是 说 他 把 一 把 刀 又 分 成 了 很 多 细 
小 的 元 素 ， 每 次 出 招 时 把 两 把 刀 的 元 素 组 合 起 来 ， 所 以 不 但 威力 大 了 ， 后 劲 也 是 了 ! 

不 过 大 侠 的 这 个 刀 法 有 个 致命 的 弱点 就 是 双 刀 息息相关 。 一 旦 其 中 一 把 刀 有 所 损坏 ， 
另 一 把 刀 相应 的 地 方 也 跟着 损坏 。 如 果 一 把 刀 完 全 失去 效力 ， 那 么 另 一 把 刀 也 跟着 失效 。 

双 刀 大 侠 一 直到 临终 也 没有 收 一 个 徒弟 ， 不 是 因为 他 武艺 不 精 ， 而 是 因为 他 的 合 一 刀 
法 在 当时 被 认为 是 时 路子 ， 垩 门牙 路 的 功夫 ， 所 以 郁闷 一 生 。 临 终 时 他 用 尽 自己 最 后 一 点 
力气 在 纸 上 写 下 了 4 句 诗 后 ， 抱 撼 而 终 ! 

刀 于 我 手 不 为 刀 ， 
横 分 坚 割 成 龙 缘 。 
化 作 神 龙 游 天 际 ， 
AL XR il iE T! 

这 就 是 后 世 流 传 的 “ 合 一 刀 谱 ”! 俗称 “ 龙 谱 ”。 

世上 最 高 的 刀 法 在 心中 ， 而 不 是 手 上 ! 双 刀 大 侠 练 就 的 是 一 门 “ 浩 瀚 ” 绝 学 ， 一 招 一 
式 都 是 铺天盖地 ， 势 不 可 挡 ! 

几 百 年 后 ,七星 大 侠 在 修炼 了 磁盘 大 挪移 神功 和 龙 谱 之 后 的 某 一 天 ， 他 突然 两 眼 发 惕 : 
“ 腾 悟 到 了 ! ”然后 奋 笔 疾 书 ， 成 就 了 “七 星 北 斗 阵 ”这 个 空前 绝 后 的 阵 式 ! RAID 0 阵 式 
就 是 这 个 阵 式 的 第 一 个 阵 式 ! 我 们 就 来 看 看 这 个 阵 式 的 绝妙 之 处 吧 ! 


4.1.1 RAIDO [E XX 


首先 ， 这 位 七 星 大 全 一定 是 对 磁盘 大 挪移 神功 有 很 高 的 造 话 ， 因 为 他 熟知 每 块 磁盘 上 
面 的 磁性 区 域 的 构造 ， 包 括 磁 道 、 磁 头 、 扇 区 和 柱 面 等 ， 这 些 口 诀 心 法 已 经 烂熟 于 心 。 在 
也 看 来 ， 盘 片 就 像 一 个 蜂窝 ， 上 面 的 每 一 个 孔 都 是 一 个 扇 区 ， 可 以 说 他 已 经 参透 了 磁盘 。 
其 次 ， 七 星 大 侠 一 定 是 对 合 一 刀 法 的 精髓 有 很 深 的 领悟 ， 即 他 能 领会 双 刀 大 侠 那 4 句 诗 的 
含义 ， 特 别 是 第 二 名 给 了 他 很 大 的 启发 ! “ 横 分 紧 割 成 龙 缘 ”， 暗 示 着 双 刀 大 侠 把 他 的 刀 
在 心中 分 割 成 了 横 条 带 和 竖 条 带 ， 所 以 叫 “ 横 分 紧 割 ”。 分 割 完毕 之 后 ， 双 刀 大 侠 把 这 些 
分 割 后 所 谓 的 “ 缘 ”， 即 细 条 带 ， 在 心中 组 合 起 来 形成 一 条 虚拟 的 “ 龙 ”， 然 后 用 龙 来 当 
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第 4 章 七 星 北斗 一 大话/ 详解 七 种 RAID 


ERa B RERE” o 

这 显然 给 了 七 星 大 侠 很 大 的 启发 ， 何 不 把 几 块 磁盘 也 给 “ 横 分 紧 制 ”， 然 后 组 成 “ 龙 ” 
UE? 对 ， 就 这 么 干 ! 七 星 大 侠 卖 血 换 来 两 块 磁盘 ， 找 了 个 破 庙 ， 在 后 面 搭 了 个 草 堆 ， 成 天 
摆弄 他 那 两 块 用 血 换 来 的 磁盘 。 白 天 出 去 要 饭 ， 晚 上 回来 潜心 钻研 ! 他 首先 决定 把 两 块 磁 
盘 都 分 割 成 条 带 ， 形 成 “ 丝 ”， 可 是 该 怎么 分 好 呢 ? 合 一 刀 法 的 思想 主要 有 两 条 路 ， 一 条 
是 懒 人 做 法 ， 不 想 动 脑子 ， 即 威力 小 ， 后 劲 足 那 种 。 另 一 种 是 需要 动脑 子 算 的 ， 即 威力 足 ， 
后 劲 也 足 那 种 。 

第 一 种 怎么 实现 呢 ? 七 星 大 侠 衬 思 苦 想 ， 却 发 现 被 误导 了 。 因 为 第 一 种 根本 不 需要 做 
“ 缘 ”。 双 刀 大 侠 的 诗 只 是 描述 了 威力 巨大 的 第 二 种 路 子 。 所 以 三 下 五 除 二 ， 七 星 大 侠 写 
出 了 RAID 0 阵 式 中 的 第 一 个 套路 : 累加 式 。 也 就 是 说 ， 磁 盘 还 是 那些 磁盘 ， 什 么 都 不 动 ， 
也 不 用 “ 横 分 紧 割 ”。 数 据 来 了 ， 先 往 第 一 块 磁盘 上 写 。 等 写 满 之 后 ， 再 往 第 二 块 上 写 。 
然后 将 这 两 块 磁盘 在 心中 组 成 一 条 龙 ， 这 就 符合 了 合 一 刀 法 的 思想 。 只 不 过 这 条 龙 威力 比 
较 弱 ， 因 为 每 次 10 只 用 到 了 一 块 磁盘 ， 另 一 块 磁盘 没有 动作 。 但 是 这 条 龙 的 后 劲 ， 比 单个 
磁盘 足 了 ， 因 为 容量 相对 一 块 磁盘 来 说 ， 增 大 了 。 

第 一 套路 子 实现 了 ， 可 第 二 套路 子 就 难 了 。 其 实 磁盘 已 经 被 分 割 了 ， 扇 区 不 就 是 被 分 
TUA? 但 是 一 个 扇 区 只 有 512 字 节 大 小 ， 这 不 符合 合 一 刀 法 。 因 为 合 一 刀 法 中 是 “ 缘 ” 
而 不 是 “ 粒 ”， 分 割 成 粒 的 话 ， 不 仅 开销 太 大 ， 而 且 组 合 起 来 也 很 困难 。 所 以 七 星 决定 完 
全 照搬 合 一 刀 法 的 思想 ， 但 是 又 不 能 丢弃 磁盘 已 经 分 割 好 的 扇 区 ， 所 以 七 星 绞 尽 脑汁 想 出 
这 么 一 个 办 法 ， 如 图 41 和 图 4.2 所 示 。 


uu 3 [3 Segment. P) extent0 — exent2  exent! — extent3 称 为 条 
Bh: 正常 的 4 块 硬盘 图 4.2_ 被 分 割 的 4 块 硬盘 


图 4.1 所 示 的 是 4 块 普通 硬盘 ,其 上 布 满 了 扇 区 。 扁 区 是 实 实在 在 存在 于 盘 片 上 的 , 具 
有 自己 的 格式 。 图 4.2 所 示 的 是 引入 分 割 思想 之 后 的 硬盘 。 由 于 许多 文件 系统 或 者 卷 管理 软 
件 都 使 用 块 而 不 是 扇 区 作为 基本 存储 单元 ,所 以 图 4.2 中 也 使 用 由 4 个 扇 区 组 成 的 块 作为 基 
本 单元 。 不 同 磁盘 的 相同 偏 移 处 的 块 组 合成 Stripe， 也 就 是 条 带 。 

块 的 编号 也 是 以 横向 条 带 方向 开始 一 条 一 条 的 向 下 。 这 样 ， 对 于 一 个 全 新 的 文件 系统 
和 RAID 0 磁盘 组 ， 如 果 有 大 块 数据 写 入 时 ， 则 数据 在 很 大 几率 上 可 以 以 条 带 为 单位 写 入 。 
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也 就 是 说 数据 被 分 成 多 块 写 入 4 个 硬盘 ， 而 不 是 单 硬盘 系统 中 的 顺序 写 入 一 个 硬盘 ， 这 就 
大 大 提高 了 速度 。 图 4.3 所 示 的 为 多 块 磁盘 组 成 的 逻辑 磁盘 示意 图 。 


“可 磁 盘 上 实 实在 在 存在 的 只 有 扇 区 结构 ，Stripe 并 不 是 一 个 实 实在 在 的 结构 ， 它 
只 是 由 程序 根据 算法 公式 现 套现 用 的 。 就 像 戴 了 一 副 有 格子 的 眼镜 看 一 张 白 
日 纸 ， 那 么 会 认为 这 张 白 纸 被 格式 化 了 ， 其 实 并 没有 有。 另外， 条 带 化 之 后 的 多 块 
硬盘 ， 数 据 是 被 并 行 写 入 所 有 磁盘 的 ， 也 就 是 多 管 齐 下 ， 而 不 是 横向 写 满 一 个 
条 带 ， 再 写 下 一 个 条 带 。 


七 星 生成 他 的 心中 之 龙 ， 也 有 
两 也 


Virtual Disk 


8k NV 


七 星 大 侠 就 这 样 埋 头 苦 苦 思考 了 整整 1 年 ， 基 于 合 一 刀 法 的 横 分 竖 割 的 思想 ， 完 成 了 
“七 星 北 斗 阵 ” 的 第 一 个 阵 式 一 一 RAID 0 阵 式 。 
4.1.2 RAID 1 阵 式 


花 开 七 人 条， 各 表 其 一 。 话 说 七 星 在 完成 RAID 0 阵 式 之 后 ， 并 没有 沾沾自喜 ， 而 总 是 想 
在 合 一 刀 法 上 有 所 创新 。 


= RAID 0 阵 式 纵然 威力 无 比 ， 但 弱点 也 很 明显 ,一旦 其 中 一 块 磁盘 废 挤 ， 整 个 阵 
x 式 将 会 被 轻易 攻破 。 因 为 每 次 出 招 靠 的 就 是 “ 合 一 ”， 如 果 任 意 一 块 坏 掉 ， 也 
就 没有 “ 合 ”的 意义 了 。 也 就 是 说 ， 数 据 被 我 在 心中 分 割 ， 本 来 老 老实 实 写 到 


一 块 盘 就 完事 了 ， 可 为 了 追求 威力 ， 非 要 并 发 写 盘 ， 第 一 、 三 、 五 …*… 块 数据 
写 到 了 1 号 盘 ， 第 二 、 四 、 六 …… 块 数据 写 到 了 2 号 盘 。 但 是 对 于 外 界 来 说 ， 


会 认为 是 把 数据 都 写 到 了 我 心中 的 一 块 虚拟 盘 上 。 这 样 不 坏 则 已 ， 一 旦 其 中 任 
何 一 块 磁盘 损坏 ， 就 会 数据 全 毁 ， 因 为 数据 是 被 分 审 开 存放 在 所 有 磁盘 上 的 。 
不 行 ， 太 不 保险 了 。 为 了 追求 威力 ， 冒 的 险 太 大 ， 要 想 个 稳 受 的 办 法 

于 是 ， 终 于 创 出 了 RAID 1 阵 式 ! 

这 话 要 说 到 8 前 ， 有 位 “独行 侠 ”， 心 独身 独 终日 孤单 一 人 。 据 称 他 每 次 出 招 从 

来 不 用 双手 ， 总 是 单 手打 出 单 掌 ， 练 就 了 一 门 “独孤 影子 掌 ”。 虽 说 此 掌 法 威力 不 高 ， 但 
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是 自 有 其 妙 处 。 每 当 他 敌 不 过 他 人 ， 单 掌 被 击溃 的 时 候 ， 就 会 立即 换 用 另 一 上 只 从 来 都 没 
过 的 掌 继 续 出 招 。 这 一 绝学 往往 另 自 以 为 已 经 占 了 上 风 的 敌人 在 还 没有 回 过 神 来 的 情况 下 ， 
被 打 个 落花 流水 ! 不 但 他 的 掌 法 绝妙 ， 就 连 他 的 身 法 都 达到 了 炉火纯青 的 地 步 。 他 能 修炼 
出 一 个 影子 ， 这 个 影子 平时 总 是 跟随 着 他 ， 他 做 什么 ， 影 子 就 做 什么 。 一 旦 真 身 损毁 ， 其 


影子 便 代替 他 的 真 身 来 动作 。 这 位 独行 侠 遗 留 的 “孤独 影子 党 ”秘笈 如 下 。 
ERA, Ro 
事由 独 心 生 。 


f ARA, XUNG. 
身影 心 相同 。 
HR, BARo 
独 饮 贵 月 容 。 
ITR, ARo 
此 景 何 时 体 ? 
独行 侠 的 这 段 诗句 不 难 理解 ， 孤 独 给 了 他 灵感 ， 身 独 心 也 独 ， 如 此 练 就 的 功夫 ， 也 是 
独孤 残 影 。 最 后 一 句 说 出 了 大 侠 的 无 奈 ， 其 实 他 也 不 想 扳 独 ， 但 是 没 人 能 理解 他 。 
七 星 大 侠 领 悟 了 独行 侠 的 苦衷 ， 感 受 了 他 的 心境 。 独 行 侠 练 就 的 是 一 门 “ 无 奈 ” 绝 学 ， 
处 处 体现 着 凌 惨 与 流 迫 。 只 有 残 了 ， 才 能 重 获 新 生 。 一 只 掌 断 了 ， 另 一 只 掌 才 能 接替 ， 这 
是 何等 凌 惨 ? 简直 半 * 惨 至 极 ! 不 过 往往 孤独 琴 苦 的 人 都 很 注意 自 保 ， 虽 然 招式 的 威力 是 最 
小 的 ， 但 是 这 门 学 问 是 武林 中 用 于 自 保 的 最 佳 选择 。 
七 星 大 侠 没 有 理由 不 选择 这 门 自 保 神功 来 解决 他 在 RAID 0 阵 式 中 的 破绽 ， 也 就 是 安全 
问题 。 毫 无 疑问 ，RAID 0 是 强大 的 ， 但 是 也 是 脆弱 的 ， 一 点 点 挫折 就 是 以 让 RAID 0 解体 。 
七 星 大 侠 决 定 完 全 抛弃 RAID 0 的 思想 ， 采 用 独行 侠 的 思想 。 将 两 块 磁盘 中 的 一 块 用 于 
正常 使 用 ， 另 一 块 用 作 正 常 使 用 磁盘 的 影子 。 影 子 总 是 跟随 主人 ， 主 人 做 什么 ， 影 子 就 做 
什么 。 工 作 盘 写 了 一 个 数据 ， 影 子 盘 在 相同 位 置 也 写 上 了 数据 。 读 数据 的 时 候 ， 因 为 数据 
有 两 份 ， 可 以 在 工作 盘 读 ， 也 可 以 到 影子 盘 读 ， 所 以 增加 了 并 发 性 。 即 修炼 这 个 阵 式 的 人 ， 
可 以 同时 应 付 2 个 敌人 的 挑 嵊 ， 自 身 应 付 一 个 ， 影 子 应 付 一 个 ， 这 无 疑 是 很 高 明之 处 ! 
但 是 应 付 一 个 敌人 的 时 候 ， 不 像 RAID 0 阵 式 那样 可 以 同时 使 用 多 块 磁盘 ， 只 能 使 用 一 
央 磁 盘 。 当 其 中 一 块 磁盘 坏 掉 ， 或 者 其 中 一 块 磁盘 上 某 个 区 域 坏 掉 ， 那 么 对 应 影子 盘 或 者 
影子 盘 上 对 应 的 位 置 便 会 立即 接替 工作 盘 ， 敌 人 看 不 出 变化 。 可 能 独行 侠 一 生 都 没有 过 到 
同时 和 两 个 对 手 过 招 的 情况 ， 所 以 在 他 的 秘笈 中 ， 并 没有 体现 “并 发 读 ” 这 个 功能 ， 只 体 
M T ZA ARo 
然而 七 星 并 没有 全 面 抛弃 双 刀 大 侠 的 思想 ， 而 是 保留 了 双 刀 的 精华 ， 即 “ 横 分 竖 割 ” 
的 基本 思想 ， 抛 弃 了 他 的 算法 ， 即 鲁 项 而 不 计 后 果 的 并 发 往 各 个 磁盘 上 写 数据 的 方法 。 所 
谓 算 法 ， 也 即 指 大 侠 对 付 敌人 招数 的 时 候 ， 在 心中 盘算 的 过 程 。 心 算 的 速度 远 远 快 于 出 招 
的 速度 ， 所 以 心算 引发 的 延 时 并 不 会 影响 出 招 。 现 在 江湖 人 士 也 大 多 都 是 精 于 钻研 算法 ， 
而 具有 制造 兵器 的 铁匠 才 去 钻研 如 何 用 料 ， 考 虑 如 何 才能 减轻 兵器 重量 而 不 影响 兵器 的 硬 
ERU JE JE ^S 
可 以 说 ， 兵 器 的 材质 、 设 计 加 上 大 侠 们 精心 的 算法 才 形 成 了 江湖 上 形 形 


(E 


色 的 功夫 秘 
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笈 ! 而 材质 在 很 大 程度 上 发 展 是 很 慢 的 ， 想 有 突破 非常 困难 。 但 是 算法 就 不 同 了 ， 大 侠 可 


以 研究 出 各 种 使 用 兵器 的 方法 ， 将 兵器 用 的 神 乎 其 神 ! 磁盘 的 转速 、 磁 密度 、 电 路 等 ， 虽 
然 一 直 在 提升 ， 但 是 终究 太 慢 。 所 以 出 现 了 以 七 星 大 侠 为 代表 的 算法 派 ， 他 们 苦 研 算法 ， 
来 提高 磁盘 的 整体 性 能 。 假 想 某 天 一 旦 某 个 铁匠 造 出 了 履 龙 刀 倚天 剑 这 般 的 神器 ， 我 想 
星 这 等 大 侠 也 就 无 用 武之 处 了 。 可 惜 这 两 把 神器 已 经 在 自 相 残 杀 中 玉石 俱 菊 了 。 


七 星 大 侠 最 后 给 这 个 阵 式 起 名 叫做 “RAID 1”。 图 4.4 显示 了 RAID 1 组 成 的 逻辑 磁盘 。 


* 


B4 RAID 1 示意 图 


但 是 七 星 也 深 深 认识 到 ， 这 个 RAD 1 阵 式 还 是 有 两 个 大 弱点 。 


在 修炼 的 时 候 ， 速 度 会 稍 慢 ， 因 为 每 次 修炼 ， 除 了 练 真 身 之 外 ， 还 要 练 影 子 。 不 
然 影子 不 会 ， 出 招 的 时 候 影子 就 无 法 使 用 。 这 会 对 实际 使 用 有 一 定 影响 ， 数 据 写 
到 工作 盘 上 ， 也 必须 写 到 影子 盘 上 一 份 。 

虽然 自己 有 个 影子 ， 但 是 影子 没有 给 真 身 增 加 后 劲 。 真 身 累 了 ， 影 子 也 会 被 拖累 。 
不 管 修炼 了 几 个 影子 ， 整 体 的 耐力 和 体力 只 等 于 其 中 一 个 的 体力 耐力 ， 也 就 是 真 
身 的 体力 和 耐力 。 整 体 的 体力 和 耐力 都 被 限制 在 体力 耐力 最 小 的 影子 盘 或 者 真 身 
上 上。 也 就 是 说 RAID 1 提供 的 最 大 容量 等 于 所 有 组 成 RAID 1 的 磁盘 中 ， 容 量 最 小 
的 一 块 ， 剩 余 容量 不 被 使 用 ，RAID 1 磁盘 组 的 写 性 能 等 于 所 有 磁盘 中 性 能 最 低 的 
那 块 磁盘 的 写 性 能 。 


七 星 看 了 看 RAID 0， 又 看 了 看 RAID 1， 一 个 鲁莽 急躁 但 威力 无 比 ， 一 个 独孤 残 苦 自嘲 
ARo RI UPS! ! 七 星 心 想 ， 我 怎么 走 了 两 个 极端 呢 ? 不 妥 ， 不 妥 ， 二 者 皆 不 合 我 意 ! 
于 是 ， 七 星 大 侠 又 开始 了 苦心 钻研 ， 这 一 下 就 是 2 年 ! 


4.1.3 
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史话 : 话说 明示 清 初时 期 ， 社 会 动荡 ， 英 雄 华 出 。 有 这 么 一 位 英雄 ,号称 “ 优 
雅 剑 侠 ”， 他 持 双手 剑 ， 得 益 于 流传 甚 广 的 合 一 刀 法 ， 并 加 入 了 自己 的 招式 ， 
修炼 成 了 一 套 “ 合 一 优雅 便 法 ”。 剑 侠 深 知 合 一 刀 法 的 鲁莽 招式 ， 虽然 威 力 巨 
大 ,但 必 会 造成 大 祸 。 所 以 他 潜心 研究 ， 终 于 找到 一 种 办 法 ， 可 以 避免 合 一 的 
鲁莽 造成 的 不 可 挽回 的 祸患 。 他 分 析 过 ， 合 一 之 所 以 鲁莽 就 是 因为 他 没有 备份 
措施 ， 兵 器 有 任何 一 点 损坏 都 会 一 损 具 损 。 那 么 是 不 是 可 以 找 一 种 方法 ， 对 兵 
器 上 的 每 个 条 带 都 做 一 个 备份 , 就 像 当年 独行 侠 那 样 , 但 是 又 不 能 一 个 对 一 个 ， 
那 就 和 独行 侠 无 异 了 。 
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剑侠 的 脑子 很 好 用 ， 他 从 小 精 于 算术 ， 有 常人 不 及 之 算术 功夫 。 如 今 他 终于 发 挥 出 他 
的 算术 技能 了 ， 他 先 找 来 一 张 纸 ， 然 后 把 他 的 两 把 剑 和 这 张 纸 ， 并 排 摆 在 地 上 ， 然 后 对 剑 
和 纸 进 行 横 分 竖 割 ， 然 后 对 照 ， 将 第 剑 的 第 一 格 写 上 一 个 1， 然 后 在 第 二 把 剑 的 相 
同位 置 上 写 上 一 个 0， 然 后 在 纸 的 对 应 位 置 上 算出 前 二 者 的 和 ， 即 1+0=1。 然 后 剑侠 设想 ， 
一 旦 第 一 把 剑 被 损坏 ， 现 在 只 剩 第 二 把 剑 和 那 张 记 满 数字 的 纸 ， 剑 侠 悦 然 大 悟 ! 原来 如 此 
精妙 ! 
为 什么 呢 ? 虽然 第 一 把 剑 损 坏 ， 但 是 此 时 仍然 可 以 出 招 ， 因 为 第 一 把 剑 上 的 数字 可 以 
纸 上 对 应 位 置 的 数字 ， 减 去 第 二 把 剑 对 应 位 置 上 的 数据 ! 也 就 是 1-0=1， 选 择 就 可 以 得 
出 第 一 把 剑 上 已 经 丢失 的 数字 ! 而 在 敌人 看 来 ， 仍 旧 是 手持 一 把 大 剑 ， 只 不 过 威力 变 小 了 
因为 每 次 出 招 都 要 计算 一 次 。 而 且 修 炼 的 时 候 也 更 加 难 了 ， 因 为 每 练 一 招 就 要 在 纸 上 记录 
下 双 剑 之 和 ， 而 且 还 需要 用 脑子 算 ， 速 度 比 合 一 刀 法 慢 了 不 少 。 
哇 哈 哈 ， 剑 侠 仰 天 长 笑 ! 他 给 自己 的 剑 法 取 名 “优雅 合 一 剑 法 ”， 意 即 他 的 剑 法 比 合 
一 思 法 虽然 威力 不 及 ， 但 也 差不多 少 。 最 重要 的 是 ， 他 克服 了 合 一 刀 法 鲁莽 不 计 后 果 的 弱 
点 ， 所 以 要 比 合 一 刀 法 来 的 优雅 。 但 是 这 个 剑 法 也 有 弱点 ， 就 是 他 额外 增加 了 一 张 纸 和 用 
了 更 多 的 脑筋 来 计算 。 脑 子 计算 倒是 不 成 问题 ， 努 力学 习 算法 便 可 ， 但 是 额外 增加 了 一 张 
纸 ， 这 个 难免 有 些 遗 憾 ， 但 是 也 没有 办 法 ， 总 比 独行 侠 那 一 套 自 保 好 得 多 。 自 保 的 代价 是 
修炼 一 个 平时 几乎 用 不 到 的 影子 ， 是 一 比 一 。 优 雅 合 一 剑 法 是 二 比 一 ， 降 低 了 修炼 的 代价 
而 威力 却 较 合 一 刀 法 没 减 多 少 。 

然而 ， 这 套 剑 法 虽然 声名 大 噪 ， 但 是 优雅 剑侠 还 是 被 一 个 突如其来 的 问题 ， 一 直 折磨 
着 ， 直 到 临终 也 没有 想 出 办 法 解决 。 


HH 如 果 我 使 用 3 把 剑 、4 把 剑 、5 把 剑 ， 这 套 剑 法 还 奏效 么 ?因为 3 把 剑 的 数字 之 
和 ， 就 不 是 一 个 数字 ， 而 是 两 个 数字 了 ， 比 如 1+0+1= 10。 而 这 套 剑 法 只 有 
一 张 纸 ， 一 个 格 不 能 放 两 个 数字 ， 这 样 就 必须 再 加 一 张 纸 ， 这 样 不 就 和 独行 侠 
“号 那 一 套 无 异 了 么 ”比例 太 高 ， 不 有 要。 所 以 优雅 剑侠 一 直 再 考虑 这 个 问题 ， 临 终 
前 留 下 一 段 诗句 ， 也 抱 憾 而 终 。 

mH eu dd, 

二 者 中 高 方 优雅 。 

3e ii 3 4 35 X 

世间 正道 为 算法 / 


优雅 剑侠 这 段 诗 的 最 后 一 句 ， 指 明了 后 人 若 要 解决 这 个 问题 ， 必 须要 找到 一 种 算法 。 
不 管 多 少 个 数字 ， 如 果 掩 盖 一 个 数字 ， 可 以 将 其 他 数字 代入 这 个 算法 ， 就 可 以 得 到 被 掩盖 
的 数字 的 值 。 这 在 当时 简直 就 是 不 可 能 的 事 。“ 世 间 正 道 为 算法 ”这 句 话 后 来 被 作为 推动 
武林 发 展 的 一 句 至 理 名 言 。 随 着 近代 西方 科技 传 入 中 国 ， 这 种 算法 终于 被 人 了 解 了 ! 他 是 
如 此 简单 而 美丽 ! 他 改变 了 整个 世界 ! 

峰回路转 ， 七 星 大 侠 在 优雅 剑 法 的 基础 上 ， 把 剑 换 成 了 磁盘 。 那 张 记录 数字 之 和 的 纸 ， 
七 星 也 改 用 磁盘 来 记录 。 这样 , 组 成 了 一 个 三 磁盘 系统 ,两 块 数据 盘 ,一块 所 谓 “ 校 验 盘 ”。 
当 数 据 损坏 时 , 根据 校 验 盘 上 的 数字 ， 可 恢复 损坏 磁盘 上 的 数字 。2 磁盘 系统 每 次 只 能 传输 
2 路 数据 ， 因 为 数据 盘 就 两 块 ， 而 每 块 磁盘 每 次 就 传输 出 去 一 路 。 

RAID 2 的 具体 实现 如 图 4.5 所 示 。 
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B5 RAID 2 的 具体 实现 
看 看 RAID 2 具体 的 实现 。 值 得 研究 的 是 ， 七 星 大 侠 并 没有 使 用 加 减法 来 进行 校 验 ， 而 


是 用 了 一 种 算法 复杂 的 所 谓 “ 汉 明码 ”来 校 验 。 这 可 不 是 信 手 拓 来 ， 而 是 有 一 定 原因 的 。 
用 加 减 算法 进行 校 验 ， 并 没有 对 数据 纠 错 的 能 力 。 加 减法 情况 下 ， 比 如 1+0+1=10， 这 段 数 
据 在 从 磁盘 被 传输 给 控制 器 的 时 候 ， 校 验 位 会 一 同 传输 ， 即 数据 位 101， 校 验 位 10， 此 时 
经 过 控制 器 的 校 验 ， 他 会 算出 1+0+1=10， 和 一 同 传 过 来 的 校 验 位 进行 比 对 。 如 果 相 同 ， 则 
证 明 数 据 都 无 误 。 但 是 此 时 如 果 在 传输 的 过 程 中 ， 电 路 受到 干扰 ， 数 据 位 其 中 有 一 位 畸变 
了 ， 比 如 变 成 111 了 ， 也 就 是 中 间 那 个 0 变 成 1 了 ， 其 他 不 变 ， 此 时 控制 器 进行 计算 
1+1+1=11， 和 一 同 传 过 来 的 10 不 同 ， 那 么 控制 器 会 怎么 认为 ? 他 可 以 认为 数据 位 全 部 正 
确 ， 而 校 验 位 被 畸变 ， 也 可 以 认为 数据 位 被 畸变 ， 校 验 位 正确 。 所 以 根本 不 能 判断 到 底 是 
种 情况 ， 所 以 不 能 修复 错误 。 而 七 星 引 入 了 汉 明 码 ， 汉 明码 的 设计 使 得 接收 方 可 以 判断 
到 底 是 哪 一 位 出 错 了 ， 并 且 能 修正 一 位 错误 ， 但 是 如 果 有 两 位 都 错 了 ， 那 么 就 不 能 修正 了 。 

Hamming Code ECC( 汉 明码 错误 检测 与 修正 ) 

RAID 2 算法 的 复杂 性 在 于 它 使 用 了 很 早期 的 纠 错 技术 一 一 汉 明 码 (Hamming Code) 校 验 
技术 。 现 在 就 来 看 一 下 汉 明 码 的 算法 。 

汉 明 码 在 原 有 数据 位 中 插入 一 定数 量 的 校 验 位 来 进行 错误 检测 和 纠 错 。 比 如 ， 对 于 一 
组 4 位 数据 编码 为 例 ， 汉 明码 会 在 这 4 位 中 加 入 3 个 校 验 位 ， 从 而 使 得 实际 传输 的 数据 位 
达到 7 位 ， 它 们 的 位 置 如 图 4.5 所 示 。 

需要 被 插入 的 汉 明 码 的 位 数 与 数据 位 的 数量 之 间 的 关系 为 2 过 PtD+1， 其 中 P 代表 汉 
明码 的 个 数 ，D 代表 数据 位 的 个 数 。 比 如 4 位 数据 ， 加 上 1 就 是 5， 而 能 大 于 5 的 2 Wn 
数 就 是 3(23=8，22= 和 )。 所 以 ，7 位 数据 时 需要 4 位 汉 明 码 (24>4+7+1)，64 位 数据 时 就 要 
7 位 汉 明 码 (27 二 64+7+1)。 

在 RAID 2 中 , 每 个 10 下 发 的 数据 被 以 位 为 单位 平均 打 散 在 所 有 数据 盘 上 。 如 图 4.5 中 
所 示 ， 左 边 的 为 数据 盘 阵 列 ， 如 果 某 时 刻 有 一 个 4KB 的 10 下 发 给 这 个 RAD 2 系统 ， 则 这 
4KB 中 的 第 1、5、9、13 等 位 将 被 存放 在 第 一 块 数据 盘 的 一 个 扇 区 中 ,第 2、6、10、14 
等 位 被 存放 在 第 二 个 磁盘 的 对 应 条 带 上 的 扁 区 ， 以 此 类 推 。 这 样 ， 数 据 强 行 打 散在 所 有 磁 
WE, GERRAK 10 都 要 全 组 联动 来 存 取 ， 所 以 此 时 要 求 各 个 磁盘 主轴 同步 ， 才 能 达到 最 佳 
效果 。 因 为 如 果 某 时 刻 只 读 出 了 一 个 10 的 某 些 扇 区 ， 另 一 些 扇 区 还 没有 读 出 ， 那 么 先 读 出 
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来 的 数据 都 要 等 待 ， 这 就 造成 了 瓶颈 。 主 轴 同 步 之 后 ， 每 块 磁盘 盘 片 旋转 同步 ， 某 一 时 刻 
每 块 磁盘 都 旋转 到 同一 个 扇 区 偏 移 的 上 方 。 同 理 , 右边 的 阵列 (我 们 称 之 为 校 验 阵列 ] 则 是 存 
储 相应 的 汉 明 码 。 

RAID 2 在 写 入 数据 块 的 同时 还 要 计算 出 它们 的 汉 明 码 并 写 入 校 验 阵列 ， 读 取 时 也 要 对 


数据 即时 地 进行 校 验 ， 最 后 再 发 向 系统 。 通 过 上 文 的 介绍 ， 我 们 知道 汉 明 码 只 能 纠正 一 个 
位 的 错误 , 所 以 RAID 2 也 只 能 允许 一 个 硬盘 出 问题 , 如 果 两 个 或 以 上 的 硬盘 出 问题 , RAID 2 
的 数据 就 将 受到 破坏 。 


RAID 2 是 早期 为 了 能 进行 即时 的 数据 校 验 而 研制 的 一 种 技术 (这 在 当时 的 RAID 0、1 等 
级 中 是 无 法 做 到 的 )]， 从 它 的 设计 上 看 也 是 主要 为 了 即时 校 验 以 保证 数据 安全 ， 针 对 了 当时 
对 数据 即时 安全 性 非常 敏感 的 领域 ， 如 服务 器 、 金 融 服 务 等 。 但 由 于 校 验 盘 数量 太 多 、 开 
销 太 大 及 成 本 昂贵 , 目前 已 基本 不 再 使 用 , 转 而 以 更 高 级 的 即时 检验 RAID 所 代替 , 如 RAID 
3、5 等 。 

七 星 大 侠 现 在 已 经 创造 了 三 种 阵 式 了 ， 根 据 合 一 刀 法 所 创 的 RAD 0， 根 据 独孤 掌 所 创 
的 RAID 1， 根 据 优雅 合 一 剑 法 所 创 的 RAID 2。 而 七 星 的 郁 闲 之 处 和 当年 优雅 剑侠 一 样 ， 就 
是 苦于 找 不 到 一 种 一 劳 永 逸 的 绝妙 算法 ， 一 种 集 各 种 优点 为 一 身 而 且 开 销 小 的 算法 。 


4.1.4 RAID 3 [E X 


话说 到 了 清末 ， 清 政 
Ro bdsm as TEX. 


伍 开 展 洋务 运动 ， 师 夷 长 技 以 治 夷 。 还 别 说 ， 真 引入 了 不 少 好 技 
这 话 要 从 布尔 说 起 ， 布 尔 有 一 次 在 家 捣 鼓 继电器 ， 他 将 多 个 继 


电器 时 而 串联 ， 时 而 并 联 ， 时 而 串 并 一 同 使 用 ， 逐 渐 摸 索 出 一 些 规律 。 比 如 两 个 继电器 在 
串联 时 候 ， 必 须 同 时 闭合 两 个 开关 ， 电 路 才能 接 通 ， 灯 泡 才 能 亮 。 如 果 把 开关 闭合 当 作 1， 


开关 关闭 当 作 0， 灯 泡 点 亮 当 作 1， 灯 泡 不 亮 当 作 0， 那 么 这 种 串联 电路 的 逻辑 就 可 以 这 样 


写 : 1 和 1=1。 也 就 是 两 个 开关 都 闭合 ， 灯 泡 才 能 亮 (等 于 了。 
然后 ， 他 还 发 现 一 个 逻辑 ， 如 果 在 这 个 串联 电路 上 增加 一 个 元 件 ， 如 果 两 个 开关 都 闭 


合 的 时 候 ， 电 路 反而 是 断 开 的 。 有 人 说 不 可 能 ， 那 么 请 仔细 想 一 想 ， 闭 合 开关 电路 断 开 ， 
这 有 什么 难 的 么 ? 完全 可 以 通过 继电器 来 实现 ， 比 如 电路 闭合 之 后 ， 电 磁铁 通电 ， 把 铁 片 
吸引 下 来 ， 而 这 个 铁 片 是 另 一 个 电路 的 开关 ， 铁 片 下 来 了 ， 另 一 个 电路 也 就 断 开 了 ， 所 以 
通过 把 这 两 个 电路 组 合 ， 完 全 可 以 得 到 这 种 逻辑 : 1 和 1=0。 

还 有 一 种 逻辑 ， 就 是 当 两 个 开关 任意 一 个 闭合 时 ， 电 路 就 通路 ， 也 就 是 并 联 电路 。 这 
种 逻辑 可 以 这 么 表达 : 1 或 1=1、1 或 0=1。 经 过 多 种 组 合 , 布尔 得 到 了 1 或 1=1、1 或 0=1、 
1 和 1=1、1 和 0=0。 

这 就 是 4 种 基本 逻辑 电路 。 这 种 “和 ”、 


“或 ”的 运算 ， 很 多 人 都 不 理解 。 人 们 理解 

的 只 是 加 减 运算 ， 因 为 加 减 很 常用 。 人 们 不 理解 的 原因 就 是 不 知道 除了 加 减 算 术 之 外 ， 还 

有 一 种 叫做 “逻辑 ”的 东西 ， 也 就 是 因果 的 运算 。 人 们 往往 把 1 当成 数量 ， 代 表 1 个 ， 而 

在 因果 率 中 ，1 不 代表 数量 ， 它 只 代表 真 假 ， 其 实 我 们 完全 可 以 不 用 1 这 个 符号 来 代表 真 ， 
px "EU RR une? 


我 们 就 


当然 


以 , 但 是 


PS 


为 笔画 太 多 ， 不 方便 ， 还 是 


的 


上 的 数据 ， 
对 称 就 是 组 


也 不 是 1 就 代表 1 个 ， 
成 宇宙 的 基石 一 样 ， 比 如 正 负 ， 对 错 等 。 当 


而 是 1 代表 磁性 的 取向 ， 


用 1 和 0 代表 真 假 比较 方 使 。 
EA] 
果 率 被 


PS 


为 磁性 只 有 两 个 取向 ， 仿 4 
数学 方程 式 表达 出 来 并 


其 实 磁盘 
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赋予 电路 的 物理 意义 之 后 ， 整 个 世界 也 就 进入 了 新 世纪 的 黎明 ， 这 个 世纪 是 计算 机 的 
世纪 。 


THR 从 数学 到 物理 意义 ， 我 们 仿佛 看 出 点 什么 来 ， 现 代 量 子 力学 那 一 大 堆 数学 式 ， 

折服 了 太 多 的 科学 家 ， 包 括 爱 因 斯 坦 ， 到 他 去 世 前 ， 爱 因 斯 坦 都 没有 理解 量子 

中 力学 所 推演 出 来 的 数学 式 子 , 在 物理 上 到 底 代 表 了 什么 意义 .而 且 直 到 21 世纪 ， 

CHO 也 没有 人 给 予 这 些 式 子 以 “目前 ”可 理解 的 物理 意义 。 我 们 可 以 想象 一 下 布尔 
逻辑 算式 公布 的 时 候 ， 物 理 意义 到 底 是 什么 ? 没 人 知道 ， 甚 至 布尔 自己 估计 也 
不 知道 ， 就 只 是 一 对 式 子 而 已 。 直 到 有 一 天 一 个 人 在 家 的 鼓 继电器 ， 突 然 风 马 
牛 不 相 及 的 想到 了 ， 这 不 就 是 布尔 远 辑 么 ? 从此， 数字 电路 ， 计 算 机 时 代 ， 改 
变 了 我 们 的 世界 。 


七 星 在 学 习 了 布尔 逻辑 算式 之 后 ， 也 是 稀里糊涂 地 把 它 用 在 RAID 2 那 一 直 困扰 他 的 问 
题 上 面 ， 看 看 能 否 有 所 突破 。 

布尔 运算 中 有 一 个 XOR 运算 ， 即 1 XOR 0=1，1 XOR 1=0，0 XOR 0=0。 布 尔 也 总 结 出 
了 类 似 加 法 结合 率 ， 加 法 交换 率 等 类 似 的 逻辑 运算 率 ， 并 发 现 了 一 些 规律 。 

1 XOR 0 XOR 1-0 

0 XOR 1 XOR 0-1 

假如 第 一 个 式 子 中 ， 中 间 的 0 被 掩盖 ， 完 全 可 以 从 结果 推出 这 个 被 掩盖 的 逻辑 数字 。 
不 管 多 少 位 ， 进 行 逻辑 运算 之 后 还 是 一 位 。 仔 细 一 想 也 是 理所当然 的 ， 逻 辑 结果 只 有 两 个 
值 ， 不 是 真 ， 就 是 假 ， 当 然 只 用 一 位 就 可 以 代替 了 。 


大 家 可 以 自己 算 算 ， 不 管 等 式 左边 有 多 少 位 进行 运算 ， 这 个 规律 都 适用 。 但 是 
HE 


在 加 减法 中 ， 若 要 保持 等 式 右边 有 一 位 ， 则 左边 参与 运算 的 只 能 是 1+ 0 或 者 0 
中 +1， 再 多 一 个 数 的 话 ， 右 边 就 是 两 位 了 。 但 是 逻辑 运算 中 等 式 右边 永远 都 是 一 
3 位! 就 是 如 此 绝妙 。 为 什么 如 此 精妙 呢 ? 没 人 能 解释 为 什么 ， 就 像 问 为 什么 有 
正 电荷 ， 负 电荷 一 样 ， 他 们 到 底 是 什么 东西 ， 谁 也 说 不 清 。 


t 星 大 侠 开始 并 不 觉得 这 是 真 的 ， 他 反复 演算 ， 想 举 出 一 个 伪证 ， 可 是 徒劳 无 功 。 七 
星 不 得 不 为 布尔 的 绝学 所 折服 ! 同时 也 为 西方 发 达 的 基础 科学 所 赞叹 ! 
至 此 ， 困 扰 七 星 大 侠 多 年 的 关于 算法 的 问题 ， 终 于 随 着 西方 科学 的 介入 ， 得 以 顺利 解 
决 ! 解决 地 是 那么 完美 ， 那 么 畅快 ! 
E 星 立即 决定 投入 其 下 一 个 阵 式 RAID 3 的 创立 过 程 中 。 他 发 狂 似 的 抛弃 了 那 元 余 的 让 
人 看 着 就 不 顺眼 的 RAID 2 的 儿 块 校 验 盘 ， 只 留 下 一 块 。 按 照 布尔 的 思想 ， 数 据 盘 的 每 一 个 
位 之 间 做 XOR 运算 ， 然 后 将 结果 写 入 校 验 盘 的 对 应 位 置 。 这 样 ， 任 何 一 块 数 据 盘 损坏 ， 或 
者 其 中 的 任何 一 个 肩 区 损坏 ， 都 可 以 通过 剩余 的 位 和 校 验 位 一 同 进行 XOR 运算 ， 而 运算 的 
结果 就 是 这 个 丢失 的 位 。8 位 一 起 校 验 可 以 找 出 一 个 丢失 的 字 节 ，512 字 节 一 起 校 验 就 可 以 
找到 一 个 丢失 的 扇 区 。 

做 到 这 里 , 已 经 算是 成 功 了 , 但 是 七 星 还 不 太 满足 , 因为 他 还 有 一 桩 心事 , 就 是 RAD 2 
中 数据 被 打 得 太 散 了 。 七 星 大 侠 索 性 把 RAID 3 的 条 带 长 度 设 置 成 为 4K 字 节 ， 这 样 刚 好 适 
配 了 上 层 的 数据 组 织 ， 一 般 文件 系统 常用 的 是 以 4KB 为 一 个 块 。 如 果 用 4 块 数据 盘 ， 则 条 
带 深度 为 2 个 扇 区 或 者 1KB。 如 果 用 8 个 数据 盘 , 则 条 带 深度 为 1 个 扇 区 或 者 说 512 字 节 。 
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总 之 ， 要 保持 条 带 长 度 为 上 层 块 的 大 小 。 上 层 的 10 一 般 都 会 以 块 为 单位 ， 这 样 就 可 以 保证 
在 连续 写 的 情况 下 ， 可 以 以 条 带 为 单位 写 入 ， 大 大 提高 磁盘 并 行 度 。 

七 星 在 RAID 3 阵 式 中 ， 仍 旧 保 持 RAID 2 的 思想 ， 也 就 是 对 一 个 10 尽量 做 到 能 够 分 割 
成 小 块 ， 让 每 个 磁盘 都 得 到 存放 这 些小 块 的 机 会 。 这 样 多 磁盘 同时 工作 ， 性 能 高 。 所 以 七 
HETE RAID 3 中 把 一 个 条 带 做 成 4KB 这 个 魔术 值 , 这 样 每 次 10 就 会 牵动 所 有 磁盘 并 行 读 写 。 
到 此 我 们 了 解 了 , RAID 2 和 RAID 3 都 是 每 次 只 能 做 一 次 10( 在 10 块 大 于 Block SIZE 的 时 候 )， 
不 适合 于 要 求 多 I0 并 发 的 情况 ， 因 为 会 造成 I0 等 待 。RAID 3 的 并 发 只 是 一 次 10 的 多 磁盘 
并 发 存 取 ， 而 不 是 指 多 个 10 的 并 发 。 所 以 和 RAID 2 一 样 ， 适 合 10 块 大 ，10 SIZE/IO PS LE 
值 大 的 情况 。 


送 的 读 写 指令 ， 其 中 包含 一 个 所 要 读 取 遍 区 的 长 度 ， 如 果 下 一 次 IO 与 本 次 IO 
D 在 物理 上 是 连续 的 (连续 IJO)， 此 时 如 果 控制 器 做 了 极端 的 优化 ， 则 可 以 将 这 两 
次 IO 合并 起 来 ， 向 磁盘 发 送 的 每 个 IO 指令 中 包含 了 两 次 上 层 IO 的 数据 ， 这 
样 也 算是 一 种 并 发 IO。 当 然 ， 这 种 优化 不 仅仅 可 以 在 磁盘 控制 器 这 一 层 实现 ， 
其 实 文件 系统 层 也 可 以 实现 。 


pe tie 
bd 


RAID 3 和 RAID 2 一 样 ， 要 达到 RAID 3 的 最 佳 性 能 ， 需 要 所 有 磁盘 的 主轴 同 
步 ， 也 就 是 说 。 对 于 一 块 数据 ， 所 有 磁盘 最 好 同时 旋转 到 这 个 数据 所 在 的 位 置 ， 

c 然后 所 有 磁盘 同步 读 出 来 。 不 然 ， 一 旦 有 磁盘 和 其 他 磁盘 不 同步 ， 就 会 造成 等 
待 ， 所 以 只 有 主轴 同步 才能 发 挥 最 大 性 能 。 


总 结 一 下 ，RAID 3 相 比 RAID 2 校 验 效率 提升 ， 成 本 减少 (使 用 磁盘 更 少 了 )。 缺 点 是 不 
RUWET, KA XOR 算法 无 法 纠正 错误 。 但 是 这 个 缺点 已 经 不 重要 ， 发 生 错 误 的 机 
少 之 又 少 ， 可 以 完全 靠 上 层 来 处 理 错误 了 。 正 可 谓 : 
与 非 异 或 同 ， 
—i 8T. 
4-3 dp BER, 
看 我 数 风流 1 
关于 RAID 3 的 校 验 盘 有 没有 瓶颈 的 问题 
不 妨 用 一 个 例子 来 深入 理解 一 下 RAID 3。 通过 刚才 的 讲解 , 大 家 知道 了 RAID 3 每 次 10 
都 会 分 散 到 所 有 盘 。 因 为 RAID 3 把 一 个 逻辑 块 又 分 割 成 了 NN 份 ， 也 就 是 说 如 果 一 个 逻辑 块 
是 4KB( 一 般 文件 系统 都 使 用 这 个 值 )， 在 有 5 块 盘 的 RAID 3 系统 中 其 中 4 块 是 数据 盘 ， 
央 是 校 验 盘 。 这 样 ， 把 4KB 分 成 4 块 ， 每 块 1KB， 每 个 数据 盘 上 各 占 1 块 ， 也 就 是 两 个 
扇 区 。 而 文件 系统 下 发 的 一 个 10， 至 少 是 以 一 个 逻辑 块 为 单位 的 ， 也 就 是 不 能 10 半 个 逻辑 
块 的 单位 ， 也 就 不 可 能 存在 一 个 10， 大 小 是 小 于 4KB 的 ， 要 么 是 1 个 4KB， 要 么 是 N 个 
4KB。 但 这 只 是 针对 文件 系统 下 发 的 10， 磁 盘 控 制 器 驱动 向 磁盘 下 发 的 10 最 细 粒 度 可 以 为 
一 个 扇 区 。 这 样 ， 就 保证 了 文件 系统 下 发 的 一 次 10， 不 管 多 大 都 被 跨越 了 所 有 数据 盘 。 


Ww 
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读 又 分 成 连续 读 和 随机 读 。 连 续 读 指 的 是 每 个 10 所 需要 提取 的 数据 块 在 序号 上 是 连续 
多 ， 磁 头 不 必 耗 费 太 多 时 间 来 回 寻 道 ， 所 以 这 种 情况 下 寻 道 消耗 的 时 间 就 很 短 。 我 们 知道 ， 
一 个 10 所 用 的 时 间 约 等 于 寻 道 时 间 加 上 数据 传输 时 间 。IOPS=1/( 寻 道 时 间 + 数 据 传输 时 间 )， 
于 寻 道 时 间 相 对 于 传输 时 间 要 大 几 个 数量 级 ， 所 以 影响 OPS 的 关键 因素 就 是 寻 道 时 间 。 
而 在 连续 10 的 情况 下 ， 仅 在 换 磁道 时 候 需 要 寻 道 ， 而 磁道 都 是 相 邻 的 ， 所 以 寻 道 时 间 也 足 
够 短 。 在 这 个 前 提 下 ， 传 输 时 间 这 个 分 母 就 显示 出 作用 来 了 。 由 于 RAID 3 是 一 个 10， 必 定 
平均 分 挫 到 了 N 个 数据 盘 上 ， 所 以 数据 传输 时 间 是 单 盘 的 1/N， 从 而 在 连续 10 的 情况 下 ， 
大 大 增加 了 IO0PS.。 而 磁盘 总 体 传输 速率 约 等 于 IOPS 乘 以 IO SIZE。 不 管 I0 SIZE € K, RAID 3 
持续 读 性 能 几乎 就 是 单 盘 的 N 倍 ， 非 常 强 大 。 

再 看 看 持续 写 ， 同 样 的 道理 ， 写 10 也 必定 分 摊 到 所 有 数据 盘 ， 那 么 寻 道 时 间 也 足够 短 
(因为 是 持续 10)。 所 以 写 的 时 候 所 耗费 的 时 间 也 是 单 盘 的 1/N， 因 此 速率 也 是 单 盘 的 N 倍 。 


一 样 ， 先 读 出 来 原来 的 校 验 块 ， 再 读 出 原来 的 数据 块 ， 接 着 计算 出 新 校 验 ， 然 后 写 入 新 数 
据 和 新 校 验 。 实 际 上 RAID 3 中 每 个 10 必定 要 改动 所 有 数据 盘 的 数据 分 块 。 因 为 一 个 文件 
系统 10 的 块 已 经 被 分 割 到 所 有 盘 了 ， 只 要 这 个 10 是 写 的 动作 ， 那 么 物理 磁盘 上 的 所 有 分 
块 ， 就 必定 要 全 部 都 被 更 新 重 写 。 既 然 这 样 ， 还 有 “ 旧 数 据 ” 和 “ 旧 校 验 ” 的 概念 么 ? 没 
有 了 ， 因 为 这 个 10 上 的 所 有 分 割 块 需要 全 部 被 更 新 ， 包 括 校 验 块 。 数 据 在 一 次 写 入 之 前 ， 
控制 器 就 会 计算 好 校 验 块 ， 然 后 同时 将 数据 块 和 校 验 块 写 入 磁盘 。 这 就 没有 了 什么 瓶颈 和 热 
点 的 区 别 ? 
RAID 4 是 有 热点 盘 ， 因 为 RAID 4 系统 处 理 文件 系统 10 不 是 每 次 都 会 更 新 所 有 盘 的 ， 
所 以 它 必须 用 RAID 5 的 那个 计算 新 校 验 的 公式 ， 也 就 是 多 出 4 个 操作 那个 步骤 ， 所 以 当然 
HHW T 1 要 说 RAID 3 有 热点 盘 , 也 行 , 所 有 盘 都 是 热点 盘 , 数据 、 校 验 , 所 有 盘 , 对 RAID 3 
来 说 ， 每 次 10 必 将 牵动 所 有 盘 ， 那 么 就 可 以 说 RAID 3 全 部 都 是 热点 盘 ! 
再 来 看 看 RAID 3 的 随机 读 写 。 所 谓 随 机 10， 即 每 次 10 的 数据 块 是 分 布 在 磁盘 的 各 个 
位 置 ， 这 些 位 置 是 不 连续 的 ， 或 者 连续 几率 很 小 。 这样， 磁头 就 必须 不 断 地 换 道 ， 换 道 操 
作 是 磁盘 操作 中 最 慢 的 环节 。 根 据 公式 IOPS=1/( 换 道 时 间 + 数 据 传输 时 间 )， 随 机 10 的 时 候 
换 道 时 间 很 大 ， 大 出 传输 时 间 几 个 数量 级 ， 所 以 传输 得 再 快 ， 翻 10 倍 也 才 增 高 了 一 个 数量 
级 ， 远 不 及 换 道 时 间 的 影响 大 ， 所 以 此 时 可 以 忽略 传输 时 间 的 增加 效应 。 由 于 一 次 10 同样 
是 被 分 割 到 了 所 有 数据 盘 ， 那 么 多 块 盘 同 时 换 道 ， 然 后 同时 传输 各 自 的 那个 分 块 ， 换 道 时 
间 就 约 等 于 单 盘 。 传 输 时 间 是 单 盘 的 1/N， 而 传输 时 间 带 来 的 增 效 可 以 忽略 。 所 以 对 于 随 
机 读 写 的 性 能 ，RAID 3 并 没有 提升 ， 和 单 盘 一 样 ， 甚 至 不 及 单 盘 。 因 为 有 时 候 磁盘 不 是 严 
格 主轴 同步 的 ， 这 样 换 道 慢 的 磁盘 会 拖累 其 他 磁盘 。 
再 来 看 看 并 发 I 0。 显然，RAID 3 执行 一 次 I0 必 将 牵动 占用 所 有 盘 ， 那 么 此 时 其 他 排 
队 的 I0 就 必须 等 待 ， 所 以 RAID 3 根本 就 不 能 并 发 10。 


上 文中 的 “IO” 均 指 文件 系统 下 发 的 10， 而 不 是 指 最 终 的 磁盘 IO. 
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415 RAID 4 阵 式 


七 星 自从 学 习 了 西方 先进 的 基础 科学 之 后 ， 一 发 而 不 可 收 ! 以 前 已 经 是 以 钻研 为 乐 ， 
现在 成 了 以 钻研 为 生 了 。 以 前 饿 了 还 知道 去 要 饭 吃 ， 现 在 七 星 已 经 感觉 不 到 饿 了 ， 只 要 有 
东西 让 他 钻研 ， 就 等 于 吃饭 了 。 

又 话说 某 天 七 星 正在 闭 目 思考 修炼 ， 他 回想 起 了 双 刀 时 代 的 辉煌 ， 独 行 时 代 的 姜 苦 和 
优雅 剑 时 代 的 中 庸 之 乐 。 往 事 历历 在 目 ， 再 看 看 如 今 已 经 是 穷困 流 倒 的 自己 ， 他 不 禁 潜 然 
泪 下 ， 老 泪 纵横 。 

他 给 上 面 的 三 种 思想 , 分别 划分 了 门派 ,RAID 0 属于 激进 派 ,RAID 1 属于 保守 派 , RAID 2 
和 RAID 3 属于 中 庸 派 。 中 庸 派 的 思想 一 方面 汲取 了 激进 派 的 横 分 竖 割 提高 威力 的 做 法 ， 一 
方面 适当 地 降低 威力 来 向 保守 派 汲取 了 自 保 的 经 验 ， 而 创立 了 引 以 为 豪 的 校 验 盘 的 绝妙 
技术 。 

七 星 想 着 激进 派 似乎 已 经 没有 什么 可 以 让 中 庸 派 值得 借鉴 的 地 方 了 ， 倒 是 保守 派 的 一 
个 关键 技术 中 庸 派 还 没有 移植 过 来 ， 那 就 是 同时 应 付 多 个 敌人 的 技术 。 虽 然 当年 独行 侠 根 
本 就 没有 意识 到 他 的 独孤 影子 掌 可 以 同时 应 付 两 个 敌人 ， 因 为 独行 侠 一 生 都 没有 同时 和 两 
个 人 交 过 手 。 虽 然 独孤 掌 的 秘笈 中 也 没有 提 及 这 门 绝招 ， 但 是 七 星 赁 他 积累 多 年 的 知识 和 
经 验 ， 强 烈 地 感觉 到 并 发 10 早 在 独孤 掌 时 代 就 已 经 被 实现 了 ， 只 不 过 没有 被 记载 ， 而 且 一 
直 被 人 忽略 ! 要 想 有 所 突破 就 必须 突破 这 一 关 ! 想到 这 里 ， 七 星 立 即 再 次 开始 了 他 的 实验 。 

RAID 2 阵 式 中 ， 数 据 块 被 以 位 为 单位 打 散在 多 块 磁盘 上 存储 ， 这 种 设计 确实 应 该 被 淘 
KT, 且 不 说 10 设计 合理 与 否 ,看 它 校 验 盘 的 数量 就 让 人 气 不 打 一 处 来 .那么 再 看 看 RAID 3， 
在 RAID 3 的 10 设计 中 还 是 走 了 RAID 2 的 老路 子 ， 也 就 是 一 次 10 尽量 让 每 块 磁盘 都 参与 ， 
而 控制 器 的 一 次 10 数据 块 不 会 很 大 , 那么 想 让 每 块 磁盘 都 参与 这 个 10， 就 只 能 人 为 地 减 小 
条 带 深度 的 大 小 。 

事实 证 明 这 种 10 设计 在 I0SIZE/IOPS( 比 值 ) 很 大 的 时 候 ， 确 实效 果 明 显 。 但 是 现实 应 
用 中 ， 很 多 应 用 的 10SIZE/IOPS 都 很 小 ， 比 如 随机 小 块 读 写 等 ， 这 种 应 用 每 秒 产生 的 10 数 
目 很 大 ， 但 是 每 个 10 所 请 求 的 数据 长 度 却 很 短 。 如 果 所 有 磁盘 同一 时 刻 都 被 一 个 10 占用 
着 ， 且 不 能 并 发 1 0， 只 能 一 个 10 一 个 10 的 来 做 。 由 于 10 块 长 度 小 ， 此 时 全 盘 联 动 来 传输 
这 个 10， 得 不 偿 失 ,还 不 如 让 这 个 10 的 数据 直接 写 入 一 块 磁盘 ， 空 余 的 磁盘 就 可 以 做 其 他 
I0 T. 
要 实现 并 发 10， 就 需要 保证 有 空闲 的 磁盘 未 被 10 占用 ， 以 便 其 他 10 去 占有 磁盘 进行 
访问 。 惟 一 可 以 实现 这 个 目的 的 方法 就 是 增 大 条 带 深 度 ， 控 制 器 的 一 个 10 过 来 ， 如 果 这 个 
10 块 小 于 条 带 深度 ， 那 么 这 次 10 就 被 完全 “ 禁 锣 ”在 一 块 磁盘 上 ， 直 接 就 写 入 了 一 个 磁盘 
上 的 Segment 中 ， 这 个 过 程 只 用 到 了 一 块 磁盘 。 而 其 他 10 也 可 以 和 这 个 10 同时 进行 ， 前 
提 是 其 他 10 的 目标 不 是 这 个 10 要 写 入 或 读 取 的 磁盘 。 所 以 实现 10 并 发 还 需要 增 大 数据 的 
随机 分 布 性 ， 而 不 要 连续 在 一 个 磁盘 上 分 布 。 这 里 七 星 大 侠 忽 略 了 一 个 非常 重要 的 地 方 ， 
下 面 会 看 到 。 

在 这 些 分 析 的 基础 上 ， 七 星 将 RAID 3 进行 了 简单 的 改造 ， 增 大 了 条 带 深度 ， 于 是 便 创 
立 了 一 个 新 的 阵 式 ， 名 日 RAID 4。 
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41.6 RAID5 阵 式 


话说 七 星 大 侠 正 在 为 创立 了 RAID 4 阵 式 而 欢喜 的 时 候 ， 麻 烦 来 了 。 很 多 江湖 上 的 朋友 
都 给 他 朱 信 说 ， 修 炼 了 RAID 4 阵 式 之 后 ， 在 10 写 的 时 候 ， 好 像 性 能 相对 于 RAID 3 并 没有 
什么 提升 ， 不 管 IOSIZE/IOPS 的 值 是 多 少 。 这 个 奇怪 的 问题 ， 让 七 星 大 侠 天 天 如 坐 针 和 、 
茶 饭 不 思 , 终日 思考 这 个 问题 的 原因 。 他 不 停 地 拿 着 两 块 磁盘 和 一 张 纸 ( 校 验 盘 ] 比 划 。 时 间 


一 长 ， 七 星 有 一 天 突然 发 现 ， 纸 已 经 被 他 画 的 不 成 样子 了 ， 需 要 另 换 一 张 。 这 引起 了 思维 
活跃 的 七 星 大 侠 的 思考 ，“ 并 发 10， 并 发 10， 并 发 10，…… ”， 他 不 停 地 在 嘴 里 念 妃 着 ， 


突然 他 两 眼 一 睁 ， 加 了 一 名 之后， 开始 奋 笔 疾 书 。 

七 星 大 侠 想 到 了 什么 让 他 悦 然 大 悟 呢 ?” 原 来 ， 七 星 经 过 思考 之 后 ， 发 现 RAD 4 确实 是 
他 的 一 大 败笔 ， 相 对 RAID 3 没有 什么 性 能 提升 ， 反 而 误 人 子弟 ， 浪 费 了 很 多 人 的 时 间 去 修 
炼 一 个 无 用 的 功夫 。 

七 星 创 立 RAID 4 时 ， 太 过 大 意 了 ， 竟 然 忽 略 了 一 件 事情 。 每 个 I0 写 操作 必须 占用 校 
验 盘 ， 校 验 盘 每 一 时 刻 总 是 被 一 个 I0 占用 ， 因 为 写 数据 盘 的 时 候 ， 同 时 也 要 读 写 校 验 盘 上 
的 校 验 码 。 所 以 每 个 写 10 不 管 占 用 了 哪 块 数据 盘 ， 校 验 盘 它 是 必须 占用 的 ， 这 样 校 验 盘 就 
成 为 了 瓶颈 ， 而且 每 个 写 入 10 都 会 拖累 校 验 盘 ， 使 得 校 验 盘 没有 休息 的 时 间 ， 成 了 “热点 
盘 ”， 非 常 容 易 损坏 。 

没有 引入 校 验 功能 ， 数 据 盘 可 以 被 写 10 并 发 ， 引 入 了 校 验 功能 之 后 ， 数 据 盘 还 可 以 并 
发 ， 但 是 校 验 盘 不 可 以 并 发 ， 所 以 整体 上 还 是 不 能 并 发 。 除 非 不 使 用 校 验 盘 ， 不 过 那 就 和 
RAID 0 没什么 区 别 了 。 所 以 七 星 在 RAID 4 上 掉 进 了 一 个 误区 ， 如 今 他 终于 醒悟 了 。 

创立 的 RAID 4 什么 都 不 是 ， 不 伦 不 类 。 七 星 这 个 郁闷 啊 ， 为 了 实现 真正 的 写 10 并 发 ， 
他 这 次 是 萝 出 去 了 ， 一 定 要 创立 新 的 阵 式 ! 
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ARAID 4 的 关键 错误 在 于 忽略 了 校 验 盘 。 每 个 IO 不 管 目标 在 哪个 数据 盘 ， 但 是 
学 | 一 定 要 读 写 校 验 盘 。 而 校 验 盘 只 有 一 块 ， 不 读 也 得 读 ! 那 如 果 有 两 块 校 验 盘 ， 
d 它 能 否 随 机 选择 一 块 来 读 写 ?不 行 ， 这 两 块 校 验 盘 之 间 也 要 同步 起 来 ， 类 似 
RAID 1， 这 样 开销 太 大 ， 成 本 太 高 。 


不 妨 作 一 下 演绎 ， 首 先 ， 我 们 的 目标 是 并 发 10。 要 并 发 10， 校 验 盘 某 一 时 刻 必须 可 以 
被 多 个 10 占用 ， 这 是 必须 的 ， 否 则 就 不 是 并 发 I0。 但 是 “ 校 验 盘 某 一 时 刻 可 以 被 多 个 10 
占用 ”, 这 不 简直 是 扯淡 么 ? 一 块 磁盘 怎么 可 以 同时 被 多 个 10 占用 呢 ? 所 以 七 星 下 了 结论 ， 
中 庸 派 不 可 能 实现 并 发 10。 
结论 下 了 ， 七 星 也 病 了 ， 彻 彻底 底 的 病 倒 了 。 他 不 甘心 ， 在 他 心中 一 定 有 一 个 完美 的 
阵 式 。 他 拿 着 那 张 已 经 快 被 夯 烂 的 纸 ， 气 愤 至 极 ， 将 纸 撕 成 了 两 半 。 碎 片 就 像 七 星 那 破碎 
的 心 ， 飘 球 落 下， 不偏 不 傈 ， 正 好 分 别 落 到 了 地 上 的 两 把 剑 上 ， 分 别 盖 住 了 剑 的 一 半 。 七 
星 看 着 这 情景 ， 一 发 避 ， 仿 佛 冥 冥 中 一 直 有 个 神仙 在 指引 着 他 似 的 ， 又 一 次 让 七 星 茅 塞 顿 
开 ， 懂 然 大 悟 。“ 老 天 助 我 啊 ! 哇 哈哈 哈哈 哈 ! ” 

ERI REM C EISE FoK. fuo 9 
三 分 之 一 。 同 样 ，4 把 剑 ， 把 纸 撕 成 4 块 ， 盖 住 剑 的 

七 星 赶紧 静 下 心 来 ， 他 深 知 ， 必 须 经 过 深思 熟 虑 ， 才 不 会 出 现 问题 ， 不 能 重 蹈 RAID 4 
的 覆 略 。 他 花 了 半 个 月 的 时 间 ， 用 树枝 在 地 上 画图 演算 ， 并 仔细 分 析 。 一 块 磁盘 同一 时 刻 
不 能 被 多 个 10 占用 ， 这 是 绝对 真理 ， 不 可 质疑 的 真理 。 那 么 以 前 也 曾经 想 过 ， 把 校 验 盘 做 
RER, ME? 也 不 好 ， 不 完美 。 这 次 把 校 验 盘 分 割 开 ， 组 合 于 数据 盘 之 中 ， 依 附 于 数据 
盘 ， 这 样 就 完美 的 避 开 了 那个 真理 。 既 然 多 个 10 可 以 同时 刻 访问 多 块 数据 盘 ， 而 校 验 盘 
被 打 散在 各 个 数据 盘 上 ， 那 么 就 意味 着 多 10 可 以 同时 访问 校 验 盘 (的 “ 残 体 ”])。 这 样 
大 增加 了 多 10 并 发 的 几率 ， 纵 使 发 生 多 个 10 所 要 用 到 的 校 验 盘 的 “ 残 体 ”可 能 在 同一 
数据 盘 上 ， 这 样 还 是 可 以 10 排队 等 待 的 。 

如 果 数 据 盘 足 够 多 ， 校 验 盘 打 散 的 部 分 就 会 分 布 得 足够 广泛 ， 多 I0 并 发 的 几率 就 会 显 
著 增 大 ! 他 根据 这 个 推断 做 实验 ， 首 先是 两 个 数据 盘 。 把 纸 撕 成 两 半 ， 分 别 盖 住 两 把 剑 的 
一 半 ， 这 样 实际 的 数据 盘 容量 其 实 是 一 把 剑 的 容量 ， 校 验 盘 容量 也 是 一 把 剑 的 容量 ， 它 们 
分 别 占 了 总 容量 的 二 分 之 一 。 由 于 2 块 盘 的 RAID 5 系统 ， 对 于 写 操作 来 说 不 能 并 发 10， 因 
一 个 10 访问 其 中 一 块 盘 的 数据 的 时 候 ， 校 验 信 息 必定 在 男 一 块 盘 ， 必 定 也 要 同时 访问 另 
一 块 盘 。 同 样 ，3 块 盘 的 RAID 5 系统 也 不 能 并 发 10， 最 低 可 以 并 发 10 的 RAID 5 系统 需要 
4 块 盘 , 而 此 时 最 多 可 以 并 发 两 个 10, 可 以 算出 并 发 几率 为 0.0322。 更 多 磁盘 数量 的 RAID 5 
系统 的 并 发 几率 将 更 高 。 图 4.6 为 一 个 RAID 5 系统 的 示意 图 。 

七 星 这 次 可 谓 是 红星 高 照 ， 脸 色 红 润 ， 病 态 全 无 。 他 把 这 个 新 创立 的 阵 式 叫 做 RAID 5。 
正 可 谓 : 


， 把 纸 撕 成 三 块 ， 分 别 盖 住 每 把 剑 的 
四 分 之 一 。 良 久之 后 ， 七 星 仰 天 长 叹 : 


xÆ 


aél, ál doa, 
剑 必 会 ， 方 不 侵 。 
分 久 必 合 合 久 分 ， 
分 分 合 合 天 地 真 ! 
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< Extent Stripe Length 到 | 
Supe: À Strip (0,1) Strip (1.1) Strip (2.1) Strip (3,1) Strip (4,1) 
Data Biock 16 Parity (0.1.1) Data Block 20 Data Block 24 Data Block 28 
Depth Data Block 17 Party (1.1.1) Data Block 21 Data Block 25 Dara Bock 20 
Data Block 18 Parity (2,1,1) Deta Block 22 Data Block 26 Data Block 30 
Y Date Block 19 Parity (3.1.1). Data Block 23 Data Block 27 Data Block 31 
Stipe2 Å Strip (0.2) Strip (1.2) Strip (2.2) Strip (3.2) Strip (4,2) 
Dota Bock 32 Dala Biox 36 Parity 0.22) Dota Block 40. Dota Block 44 
Dept Dats Block 33 Data Biock 37 Party (1.22) Data Bloc «T Data Sicck 45 
Data Biock 34 Data Biock 38 Party 2.22) Data Block 42 Dara Sicck 46 
Y Date Block 35 Data Block 39 Parity (3.2.2) Data Block 43 Data Block 47 


Bl RAID 5 系统 示意 图 


RAID 5 也 不 是 那么 完美 无 缺 的 ,可 以 说 RAID 5 是 继 RAID 0 和 RAID 1 
实现 并 发 10 的 阵 式 ， 但 是 比 RAID 1 更 加 划算 ， 


央 盘 的 系统 中 与 RAID 1 是 一 样 的 ， 都 是 二 分 之 一 。 但 是 随 着 磁盘 数量 


浪费 的 容量 比例 越 来 越 小 ， 为 N 分 之 一 ， 而 RAID 1 则 永远 是 二 分 之 一 。 


数据 
RAID 3 由 于 条 带 深度 很 小 , 每 次 10 总 是 能 牵动 所 有 磁盘 为 它 服务 ， 对 于 大 
写 速 度 很 快 。 但 是 RAID 5 的 条 带 深度 比较 大 ， 每 次 10 一 般 只 使 用 一 块 数 
RAID 5 系统 一 般 被 设计 为 数据 块 都 是 先 放 满 一 个 Segment， 再 去 下 一 个 磁盘 的 Segment f£ 


RAID 5 和 RAID 0 都 是 利用 条 带 来 提升 性 能 ， 但 是 它 又 克服 了 RAID 0 


放 ， 块 编号 是 横向 进行 的 。 

RAID 5 在 随机 读 方 面 ,确实 是 首届 一 指 的 ， 这 要 归功 于 它 的 多 10 并 发 
的 是 随机 10。 也 就 是 说 RAID 3 在 IOSIZE 值 大 的 时 候 具 有 高 性 能 ，RAID 5 
的 时 候 具 有 高 性 能 。 


效应 的 影响 尤其 严重 。 


据 ， 
据 ， 
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用 校 验 的 方式 进行 保护 。 但 是 RAID 5 的 设计 思想 , 注定 了 它 的 连续 读 性 


之 后 , 第 一 个 能 


比 RAID 0 更 加 安全 。RAID 5 浪费 的 资源 ， 


的 增加 ，RAID 5 


的 鲁莽 急 蹊 ， 对 
能 不 如 RAID 3， 
央 连 续 数据 的 读 
据 盘 ， 而 且 通 用 


的 实现 ， 这 里 指 
在 随机 IOPS 大 


RAID 5 的 一 大 缺点 就 是 写 性 能 较 差 。 写 性 能 差 是 中 庸 派 的 通病 ， 其 根本 原因 在 于 它们 
每 写 一 扇 区 的 数据 就 要 产生 其 校 验 扇 区 ， 一 并 写 入 校 验 盘 。 尤 其 是 更 改 数据 的 时 候 ， 这 种 


RAID 5 写 的 基本 过 程 是 这 样 的 ， 新 数据 过 来 之 后 ， 控 制 器 立即 读 取 待 更 新 扇 区 的 原 数 
同时 也 要 读 取 这 个 条 带 上 的 校 验 数据 。 三 者 按照 公式 运算 ， 便 可 得 出 新 数据 的 校 验 数 


然后 将 新 数据 和 新 数据 的 校 验 数据 写 到 磁盘 。 公 式 如 下 。 
新 数据 的 校 验 数据 =( 老 数据 EOR 新 数据 ) EOR 老 校 验 数据 
鱼 和 能 掌 不 可 兼 得 ! 最 后 七 星 总 结 了 这 么 一 句 话 。 也 就 是 说 随机 并 发 1 


0 和 写 性 能 二 者 
减 ， 从 


一 。 但 是 有 些 文件 系统 巧妙 的 减少 了 这 种 写 惩罚 ， 使 得 RAID 4 的 缺点 被 成 功 前 减 


优点 显现 了 出 来 ， 本 章 后 面 会 提 到 这 种 优化 操作 。 
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jRAID 5 一 次 写 的 动作 ， 其 实 要 浪费 掉 3 个 其 他 动作 ， 也 就 是 要 先 读 出 老 数据 ， 
学 | 读 出 老 校 验 数据 ， 然 后 写 新 数据 和 校 验 数 据 ， 这 样 只 有 “ 写 新 数据 ”是 要 完成 
日 的 目的 ， 而 捕 带 了 三 个 额外 操作 。 纵 观 RAID 0 和 RAID 1 此 二 者 ，RAID0 鲁 
莱 ， 写 就 是 写 ， 不 带 任 何 考虑 ， 所 以 速度 最 快 。RAID 1 自 保 ， 但 是 每 次 也 只 
要 写 两 次 即 可 , 只 是 额外 多 了 一 个 操作 。 所 以 RAID 5 和 RAID 4 在 处 理 写 方面 
是 失败 的 。 就 连 RAID 2 和 RAID 3 都 比 RAID 5 写 性 能 强 ， 因 为 它们 的 条 带 深 
度 很 小 ， 任 何 一 次 正常 点 的 IO 几乎 会 履 写 所 有 盘 ， 均 会 将 这 整个 条 带 上 的 位 
都 改变 。 所 以 RAID 2 和 RAID 3 不 用 顾忌 条 带 上 是 否 还 有 未 被 更 新 的 数据 ， 所 
以 它 不 会 管 老 数 据 如 何 ， 只 管 从 新 数据 计算 出 新 校 验 数据 ， 然 后 同时 将 数据 位 
和 校 验 位 分 别 写 到 数据 盘 和 校 验 盘 ， 这 样 只 用 了 2 个 操作 ， 比 RAID 5 少 了 两 
次 读 的 过 程 。 


RAID 5E 和 RAID 5EE 阵 式 

七 星 大 侠 推 出 RAID 5 之 后 ， 受 到 了 极为 广泛 地 应 用 ， 江 湖上 的 武林 人 士 都 在 修炼 ， 有 
些 练 成 的 大 侠 还 各 自 创 办 了 数据 库 、 网 站 等 生意 ， 得 益 于 RAID 5 的 随机 10 并 发 特性 ， 这 
些 人 赚 了 一 大 笔 生意 火 的 一 塌 糊 涂 。 然 而 ， 七 星 还 是 那个 要 饭 的 七 星 ， 剑 还 是 那 把 剑 ， 
依然 终日 以 钻研 为 乐 ， 以 钻研 为 生 。 

话说 有 一 天 ， 有 个 侠客 专门 找到 了 七 星 大 侠 ， 侠 客 请 他 到 “纵横 斋 ” 煮 酒 畅 饮 。 洒 过 
: 巡 ， 菜 过 五 味 ， 侠 客 进入 了 正题 ， 向 七 星 叙述 了 一 件 事情 。 他 说 他 已 经 炼 成 了 RAID 5 阵 
式 ， 但 是 在 使 用 的 时 候 总 是 心里 没 底 。 其 原因 就 是 一 旦 一 块 磁盘 损坏 ， 虽 然 此 时 不 影响 使 
用 ,但 是 总 有 顾虑 ， 不 敢 全 力 出 招 ， 就 怕 此 时 再 坏 一 块 磁盘 ， 整 个 阵 式 就 朋 澳 了 。 

他 请 求 七 星 决 这 个 问题 ， 临 走 的 时 候 留 下 了 几 块 市 面 上 品质 最 好 的 硬盘 和 一 些 银 子供 
七 星 研究 使 用 。 七 星 很 是 感动 ， 几 十 年 来 从 来 没有 一 位 江湖 人 士 和 他 交流 切 碳 过 ， 也 从 来 
没有 一 个 人 来 帮助 过 他 。 此 景 让 他 泪 流 满面 ， 感 动 得 不 知 说 什么 好 。 他 向 那 位 侠客 道 , “能 
交 您 这 位 豪杰 人 士 ， 我 七 星 此 生 无 憾 ! ”。 随 后 ， 七 星 又 开始 终日 研究 。 这 位 大 侠 就 是 几 
| 年 后 谱写 降 龙 传说 的 张 真人 。 


HH 时 咽 ， 一 旦 一 块 磁盘 损坏 ， 此 时 这 块 盘 上 的 数据 已 经 不 复 存在 ， 但 是 如 果 有 IO 

> | 请求 这 块 坏 盘 上 的 数据 ， 那 么 可 以 用 还 存在 的 数据 ， 校 验 出 这 块 损坏 的 数据 ， 

-请 传 送出 去 。 也 就 是 说 ， 损 坏 的 数据 是 边 校 验 边 传送 ， 现 生成 现 传送 的 。 而 对 于 
要 写 入 这 块 盘 的 JD， 控 制 器 会 经 过 计算 ， 将 其 “ 重 定向 ”到 其 他 盘 。 所 谓 重 定 
向 并 不 是 完全 透明 的 写 入 其 他 盘 ， 而 是 运用 KOR 进行 逆 运算 ， 将 写 入 的 数据 
代入 算式 进行 逆 算 ， 得 到 的 结果 写 入 现存 的 磁盘 上 。 
此 时 如 果 再 有 一 块 磁盘 损坏 ,无 疑 阵 式 就 要 崩溃 了 。 解决 这 个 问题 的 直接 办 法 
就 是 找 一 块 备用 的 磁盘 。 一 旦 有 磁盘 损坏 ， 其 他 磁盘 立即 校 验 出 损坏 的 数据 ， 
立即 写 到 备用 磁盘 上 。 写 完 之 后 ， 阵 形 就 恢复 原样 了 ， 就 没有 顾虑 了 。 但 是 必 
须 保证 在 其 他 磁盘 齐 力 校 验 恢复 数据 的 过 程 中 ， 不 可 再 有 第 二 块 磁盘 损坏 ， 不 
然 便 会 玉石 俱 焚 ! 
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想到 这 里 ， 七 星 开始 了 他 的 实验 ， 并 且 取 得 成 功 。 就 是 在 整个 阵 式 中 增加 一 块 热 备 盘 ， 
平时 这 块 磁盘 并 不 参与 组 阵 ， 只 是 在 旁边 观战 ， 什 么 也 不 干 。 一 旦 阵 中 某 个 人 受伤 不 能 参 
战 了 ， 这 个 热 备 盘 立 即 顶 蔡 它 ， 其 他 人 再 把 功力 传授 给 它 。 传 授 完 毕 后 ， 就 像 原 来 的 阵 式 
一 样 了 。 如 果 在 大 家 传授 功力 的 时 候 ， 有 10 请 求 这 块 损坏 磁盘 上 的 数据 ， 那 么 大 家 就 暂停 
传授 ， 先 应 付 外 来 的 敌人 。 当 没有 来 针对 这 块 损坏 磁盘 的 挑 评 时 ， 大 家 会 继续 传授 。 
七 星 的 经 验 不 断 丰 富 ， 他 知道 不 能 急躁 ， 所 以 实验 成 功 之 后 ， 七 星 并 没有 马上 通知 那 
位 大 侠 ， 而 是 继续 在 想 有 没有 可 以 改进 的 地 方 。 他 想 ， 热 备 盘 平时 不 参与 组 阵 ， 那 就 不 能 
称 作 阵 式 的 一 部 分 ， 而 是 被 排斥 在 外 。 这 块 磁盘 平时 也 没有 10， 起 不 到 作用 ， 这 样 就 等 于 
浪费 了 一 块 磁盘 。 那 么 是 不 是 考虑 也 让 它 参与 到 阵 形 中 来 呢 ? 如 果 要 参与 进来 ， 那 让 它 担 
任 什么 角色 呢 ? 热 备 角色 ? 如 果 没有 人 受伤 , 这 个 角色 在 阵 中 只 会 是 个 累 歼 。 怎么 办 好 呢 ? 
七 星 忽然 掠 过 一 丝 想法 ， 是 否 可 以 让 阵 中 各 个 角色 担 待 一 下 ， 从 各 自 的 领地 保留 出 一 块 空 
间 ， 用 作 热 备 盘 的 角色 呢 ? 
这 样 把 热 备 盘 分 布 在 各 个 磁盘 上 ， 就 不 会 形成 累 追 ， 并 且 同 时 解决 了 热 备 盘 和 大 家 不 
协调 的 问题 。 说 干 就 干 ， 七 星 给 那 位 大 侠 写 了 一 封 信 ， 信 中 称 这 种 阵 式 为 RAID 5E。 七 星 继 
续 琢磨 RAID 5E, 让 阵 中 每 个 人 都 保留 一 块 领地 , 而 不 横 制 , 虽然 可 以 做 到 数据 的 及 时 备份 ， 
但 是 这 块 领地 总 显得 不 伦 不 类 。 七 星 突然 想到 被 撕 碎 的 纸 片 飘 然 落下 的 情景 ， 忽 然 计 上 心 
K! 既然 校 验 盘 都 可 以 横 分 竖 割 的 融合 到 数据 盘 ， 为 什么 热 备 盘 不 能 呢 ? 一 样 可 以 ! 七 星 
想到 这 里 ， 于 是 又 给 那 位 侠客 去 了 一 封 信 ， 信 中 描述 这 种 新 的 阵 式 为 RAID SEE. 
那 位 侠客 给 七 星 回 了 一 封 信 : 
七 星 转 ， 北 斗 移 ， 
英雄 无 谓 千 万 里 。 
待 到 再 次 相 见 时 ， 
€ XX. sc! 
-EAUEG EEUU, MAR. HIIRI, TRENBI AE A CL! 


41.7 RAID6 阵 式 


如 今 ， 七 星 已 经 从 一 个 壮年 小 伙 变 成 了 个 孤苦 伶 体 的 老头 。 回 想 他 的 一 生 ， 从 RAD 0 
一 直到 RAID 5(E、EE) 创 立 了 6 种 阵 式 , 各 种 阵 式 各 有 所 长 。 他 最 得 意 的 恐怕 就 是 中 庸 派 的 ， 
中 庸 之 道 。 可 就 是 这 个 中 庸 之 道 ， 却 还 有 一 个 一 直 也 未 能 解决 的 问题 ， 那 就 是 其 中 任何 一 
种 阵 式 ， 都 最 多 同时 允许 损坏 一 块 磁盘 ， 如 果 同 时 损坏 多 块 ， 整 个 阵 不 攻 自 破 ! 七 星 想到 
这 里 就 一 阵 酸楚 。 已 经 是 白 发 苍苍 的 七 星 老 侠 ， 决 定 要 用 晚年 最 后 一 点 精力 来 攻破 这 个 
七 星 老 侠 一 生 精 研 阵 式 ， 有 很 多 宝贵 的 经 验 。 他 这 次 采用 了 北向 思维 ， 假 设 这 个 模型 
已 经 做 好 ， 然 后 从 逆向 分 析 他 是 怎么 作用 的 。 先 描绘 出 多 种 模型 ， 然 后 一 个 一 个 地 去 攻破 ， 
找 出 最 适合 模型 。 

七 星 描绘 了 这 么 一 个 模型 ， 假 设 有 5 块 盘 组 成 一 个 RAID 阵列 ，4 块 数据 盘 ， 一 块 校 验 
盘 ， 那 么 同一 时 刻 突 然 4 块 数据 盘 中 的 两 块 损 坏 作废 ， 只 剩 下 两 块 数据 盘 和 一 块 校 验 盘 。 
假设 有 某 种 算法 ， 可 以 恢复 这 两 块 丢 失 磁 盘 上 的 数据 ， 那 么 怎么 从 这 个 模型 推断 出 ， 这 个 
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算法 是 怎么 把 丢失 的 两 块 盘 数 据 都 恢复 出 来 的 呢 ? 七 星 冥 思 苦 想 。 七 星 在 幼年 学 习 方 程 的 
时 候 ， 知 道 要 求解 一 个 未 知 数 ， 只 需 知道 只 包含 这 一 个 未 知 数 的 一 个 等 式 即 可 逆向 求解 。 
就 像 布尔 的 逻辑 算式 用 在 RAID 3 阵 式 时 候 一 样 , 各 个 数据 盘 上 的 数据 互相 XOR 之 后 就 等 于 
校 验 盘 上 的 校 验 数据 ， 这 就 是 一 个 等 式 。 


D1 XOR D2 XOR D3 = Parity 


如 果 此 时 D1 未 知 ,而 其 他 3 个 值 都 已 知 ,那么 就 可 以 逆向 解 出 未 知 数 , 而 这 也 是 RAID 3 
进行 校 验 恢复 的 时 候 所 做 的 。 那 么 此 时 如 果 D1 和 D2 都 未 知 ， 也 就 是 1 号 盘 和 2 du 
坏 了 ， 还 能 解 出 这 两 个 值 么 ?数学 告诉 七 星 ， 这 是 不 可 能 的 ， 除 非 除 了 这 个 等 式 还 额外 存 
在 一 个 和 这 个 等 式 不 相关 的 另 一 个 等 式 ! 

要 求解 两 个 未 知 数 ， 只 要 知道 关于 这 两 个 未 知 数 的 不 相关 的 两 个 关系 方程 即 可 。 比 如 
有 等 式 为 D1 ? D2? D3 =*， 联 立 以 上 两 个 等 式 ， 即 可 求 出 D1 和 D2。 七 星 开始 寻 砚 这 
个 等 式 ， 这 个 等 式 是 已 经 存在 ? 还 是 需要 自己 去 发 明 呢 ? 七 星 一 开始 打算 从 布尔 等 式 找寻 
出 第 二 个 等 式 的 蛛丝马迹 ， 但 是 后 来 他 根据 因果 率 知 道 如 果 从 布尔 等 式 推 出 其 他 某 些 等 式 ， 
那么 推出 的 等 式 和 布尔 等 式 就 是 相关 的 。 互 相 相 关 的 两 个 等 式 ， 在 数学 上 是 等 价 的， 无 法 
作为 第 二 个 等 式 。 七 星 有 所 察觉 了 ， 他 认为 要 想 得 出 第 二 个 等 式 ， 必 须 由 自己 发 明 一 套 算 
法 ， 一 套 和 布尔 等 式 不 相关 的 算法 ! 他 开始 在 纸 上 演 义 算法 ， 首 先 他 开始 从 算术 的 加 减 方 
悍 开 始 着 手 ， 他 写 出 了 一 个 可 以 求解 两 个 未 知 数 的 二 元 方程 。 

X+Y=10 

2X+3Y=20 

这 算是 最 简单 的 算术 方程 了 。 可 以 求 得 x=10，y=0。 

以 上 是 对 于 算术 运算 的 方程 ， 那 么 布尔 逻辑 运算 是 否 也 可 以 有 方程 呢 ? 七 星 写 下 如 下 
的 式 子 。 


x XORy=1 

Ax XOR By = 0 

第 一 个 方程 已 经 存在 了 ， 也 就 是 用 在 RAID 3 上 的 校 验方 程 。 第 二 个 方程 是 七 星 模仿 加 
减 方程 来 写 的 ， 也 就 是 给 x 和 y 两 个 值 分 别 加 上 了 一 个 系数 ， 而 这 两 个 系数 不 能 是 从 第 一 
个 等 式 推 得 的 ， 比 如 是 将 第 一 个 等 式 未 知 数 的 系数 同 乘 或 同 除 以 某 个 数 得 出 来 的 ， 这 样 就 
是 相关 等 式 了 。 七 星 立 即 找 来 布尔 逻辑 运算 方面 的 书 深 入 学 习 ， 终 于 得 到 了 印证 ， 这 种 方 
程 确实 存在 ! 七 星 激动 得 跳 了 起 来 ! 他 立即 投入 到 研发 中 。 过 了 两 个 月 ， 终 于 得 出 了 结果 ! 
大 获 成 功 ! 

七 星 对 一 份 数据 使 用 两 套 算法 各 自 算出 一 个 等 式 ，1 号 等 式 右边 的 结果 写 入 校 验 盘 1， 
2 号 等 式 右 边 的 值 写 入 校 验 盘 2。 这 样 ， 只 要 使 用 中 有 两 个 值 发 生 丢失 ， 就 可 以 通过 这 两 个 
等 式 联 立 ， 解 出 丢失 的 两 个 值 。 不 管 这 两 个 值 是 等 式 左边 的 还 是 等 式 右 边 的 ， 只 要 代入 这 
两 个 等 式 中 ， 就 可 以 求 出 解 。 

数学 的 力量 是 伟大 的 ， 任 何 东 西 只 要 通过 了 数学 的 验证 ， 就 是 永恒 的 ! 

同样 ， 七 星 将 用 在 RAID 5 中 的 方法 ， 用 在 了 新 创立 的 阵 式 中 ， 将 校 验 盘 分 布 到 数据 盘 
中 ， 不 同 的 是 新 阵 式 的 校 验 盘 有 两 块 ， 在 每 块 磁盘 上 放置 两 个 等 式 需要 的 校 验 值 。 

七 星 给 这 种 阵 式 取 名 为 RAID 6. 
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RAID 6 相对 其 他 各 种 中 庸 派 的 阵 式 安全 多 了 ， 但 同时 它 的 写 性 能 更 差 了 ， 因 为 它 要 多 
读 出 一 个 校 验 数 据 ， 而 且 计算 后 还 要 写 入 一 次 ， 这 就 比 RAID 5 每 次 写 耗费 多 了 2 个 操作 ， 
变 成 了 6 次 操作 ， 所 谓 的 “ 写 惩罚 ”更 大 了 。 确 实 是 鱼 与 能 掌 不 能 兼 得 啊 ! 正 可 谓 : 


七 星 在 创立 了 RAID 6 阵 式 之 后 ， 已 经 老 态 龙 钟 ， 疾 病 缠 身 ， 所 剩 时 
可 是 一 派 热 闸 ， 修 炼 的 修炼 ， 修 炼 好 的 就 立 门派 ， 开 设 数据 库 、 网 站 等 服务 来 大 赚钱 财 。 
而 打 着 七 星 大 侠 旗 号 到 处 招摇 撞 骗 的 人 也 不 在 少数 。 张 真人 路 见 不 平 拔 刀 相助 ， 他 召开 武 


34 A A AS, 
七 星 北 斗 伞 我 行 。 
世间 万 物 细 规律 ， 
求 得 心 法 谋 太 平 ! 


不 多 。 而 江湖 上 


林 大 会 ， 表 彰 了 七 星 的 功绩 ， 指 出 真正 的 七 星 现 在 早已 归隐 ， 那 些 招 摇 撞 骗 的 人 也 就 没有 


容 身 之 地 了 。 他 还 提 


之 间 的 北斗 豪情 ! 


议 将 七 星 所 创立 的 7 种 阵 式 命名 为 “七 星 北斗 阵 ”， 以 纪念 他 和 七 星 


张 真人 亲自 到 深山 去 探望 已 经 是 下 不 了 床 的 七 星 ， 并 将 武林 中 发 生 的 事情 告诉 了 他 。 


此 后 没 几 天 ， 七星 无 


憾 地 离开 了 人 世 ， 化 作 了 北斗 七 星 ， 在 天 上 酒 下 无 限 的 光芒 照耀 世间 ! 


张 真人 给 老人 办 了 后 事 ， 并 将 七 星 过 世 的 消息 宣布 了 出 去 。 没 想到 第 二 天 ， 七 星 、 星 七 、 
北斗 、 斗 北 、 七 星 北斗 、 北 斗 七 星 、 星 七 北斗 、 星 七 斗 北 等 商标 就 被 抢 注 了 ! 大 批 的 商人 
在 发 着 横财 。 正 可 谓 : 


下 面 从 纯 技 术 角 


*RH 
七 星 阵 里 论 七 星 ， 
北斗 光 前 参 北 斗 。 
不 知 天 上 七 星 侠 ， 
de A id E 4A 


4.2 七 种 RAID 技术 详解 


度 ， 深 入 剖析 目前 存在 的 七 种 RAID 模式 的 组 成 原理 和 结构 ， 并 分 析 各 


种 级 别 相对 于 单 盘 10 速率 的 变化 。 


首先 澄清 一 点 ， 


所 谓 Stripe 完全 是 由 程序 在 内 存 中 虚拟 出 来 的 ， 说 白 了 就 是 一 个 map 


公式 。 即 仿佛 是 给 程序 戴 了 一 个 特殊 的 眼镜 ， 程 序 戴 上 这 个 眼镜 ， 就 能 看 到 “条 ”和 “ 带 ”， 
就 会 知道 将 数据 分 布 到 条 带 上 了 。 一 旦 摘 下 这 个 眼镜 ， 那 么 看 到 的 就 是 普通 的 物理 磁盘 扇 


区 。 这 个 眼镜 就 是 实 


现 RAID 的 程序 代码 。 物 理 磁 盘 上 根本 不 存在 什么 “条 ”和 “ 带 ”， 只 


有 扇 区 。 另 外 , 程序 会 在 磁盘 特定 的 一 些 扁 区 中 写 入 自己 运行 时 需要 的 信息 , 比如 一 些 RAID 


标签 信息 等 。 
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图 4.7 所 示 为 一 个 RAID 0 系统 的 示意 图 。 
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Extent 0 Extent 1 Extent 2 Extent 3 Extent 4 
Stripe 0 Strip (0.0) Strip (1.0) Strip (2.0) Strip (3.0) 
Dots Biot [maa Dus Bock 12 
Depth | [Dss Soat [TET | Du Box 1$ 
Dots Bloo 2 ee se [ Dura Boor 
Da Bic $ [C Daa soa Dors Boor s 
[a Extent Stripe Length- » 
Stripe 1 t Strip (1.1) Strip (2.1) Strip (3.1) Strip (4,1) 
Imc Dera Floor 26 Dors Box 37 Dorm Bin 36 
Depth Deta Boa 25 Dais Boor 33 
Dat TE EEC Dus Bio 3 
[ oaa Bio Data Bock 35 Dua Bod 39 
Stripe 2 Strip (0.2) Strip (1.2) Strip (2.2) Strip (32) Strip (4.2) 
Data Soo 40 Fema Dala Bloc t$ Data Bom 2 Duis Bod $6 
Depth | | Taa soat Da Beck: Dala Block d$ Data Bo 53 Data Bod 57 
Data Boo 47 Dam Bo a Dat Blocx 8 Dura Bock SE Dus Sic SE 
Data oc 43 Imm Deis Bloc Dors Boor 55 Dorm Bin S 
. . . . . 
. . H H . 
H . H H . 


圆 4.7_ 一 个 典型 的 RAID 0 系统 
扇 区 、 块 、 段 (Segment)、 条 带 、 条 带 长 度 和 深度 
图 4.7 中 的 5 个 竖 条 ， 分 别 代表 5 个 磁盘 。 然 后 在 磁盘 相同 偏 移 处 横向 逻辑 分 割 ， 形 


成 Stripee。 一 个 Stripee 横 跨 过 的 扇 区 或 块 的 个 数 或 字 节 容量 ， 就 是 条 带 长 度 ， 即 Stripee 
length。 而 一 个 Stripee 所 占用 的 单 块 磁盘 上 的 区 域 ， 称 为 一 个 Segment。 一 个 Segment 中 
所 包含 的 data Block 或 者 扇 区 的 个 数 或 者 字 节 容量 , 称 为 Stripee depth. Data Block 可 以 是 
N 倍 个 扇 区 大 小 的 容量 ， 应 该 可 调 ， 或 者 不 可 调 ， 由 控制 器 而 定 。 


RAID 0 便 是 将 一 系列 连续 编号 的 data Block 分 布 到 多 个 物理 磁盘 上 ,扩散 10 提高 性 能 。 


其 分 布 的 方式 ， 如 图 4.7 所 示 。 这 个 例子 中 ， 条 带 深度 为 4， 则 0、1、2、3 号 data Block 
被 放置 到 第 一 个 条 带 的 第 一 个 Segment 中 ,然后 4、5、6、7 号 Block 放置 到 第 一 个 条 带 的 
第 二 个 Segment F, WIEHE, Fir 1 放 满 后 ， 继 续 放 条 带 2。 这 种 特性 称 为 “局 部 连续 ”， 
因为 Block 只 有 在 一 个 Segment 中 是 物理 连续 的 ， 逻 辑 连 续 就 需要 跨 物理 磁盘 了 。 


关于 几 个 与 IO 相关 的 重要 概念 
IO 可 以 分 为 读 / 写 IO、 大 /小 块 IO、 连 续 / 随 机 IJO、 顺 序 /并 发 ID。 下 面 来 分 别 介绍 这 


几 种 IO. 


e dE/E IO: 这 个 就 不 用 多 说 了 ， 读 IO 就 是 发 指令 从 磁盘 读 取 某 段 序号 连续 的 扇 区 
的 内 容 。 指 令 一 般 是 通知 磁盘 开始 扇 区 位 置 ， 然 后 给 出 需要 从 这 个 初始 扇 区 往 后 
读 取 的 连续 扇 区 个 数 ， 同 时 给 出 动作 是 读 还 是 写 。 磁 盘 收 到 这 条 指令 就 会 按照 指 
令 的 要 求 读 或 者 写 数据 。 控 制 器 发 出 这 种 指令 加 数据 并 得 到 对 方 回执 的 过 程 就 是 
一 次 IO 读 或 IO 写 。 注 意 ， 一 个 IO 所 要 提取 的 遍 区 段 一 定 是 连续 的 ， 如 果 想 提取 
或 写 入 两 段 不 连续 的 扇 区 段 ， 只 能 将 它们 放 入 两 个 IO 中 分 别 执行 ， 这 也 就 是 为 何 
随机 IO 对 设备 的 IOPS 指标 要 求 较 高 的 原因 。 

e 大 /小 块 IO: 指控 制 器 的 指令 中 给 出 的 连续 读 取 遍 区 数目 的 多 少 。 如 果 数 目 很 大 ， 
如 128. 64 等 ， 就 应 该 算是 大 块 IJO。 如 果 很 小 ， 比 如 1、4、8 等 ， 就 应 该 算是 小 
块 JO。 大 块 和 小 块 之 间 ， 没 有 明确 的 界限 。 

e 连续 /随机 IO: 连续 和 随机 是 指 本 次 IO 给 出 的 初始 扇 区 地 址 和 上 一 次 IO 的 结束 扇 
区 地 址 是 不 是 完全 连续 的 或 者 相隔 不 多 的 。 如 果 是 ， 则 本 次 IO 应 该 算是 一 个 连续 
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4.2.1 


RAID 0 是 这 样 一 种 模式 : 我 们 拿 5 块 盘 的 RAD 0 为 例子 , 如 
图 4.7 所 示 。 


»p 


连续 ， 物 理 上 也 连续 的 虚拟 磁盘 。 一 级 磁盘 控制 器 (指使 用 这 个 虚 
拟 磁盘 的 控制 器 ， 如 果 某 台 主 机 使 用 适 配 卡 链接 外 部 盘 阵 ， 则 指 


IO。 如 果 相 差 太 大 ， 则 算 一 次 随机 IO。 连 续 IO 因为 本 次 初始 扇 区 和 上 次 结束 启 
区 相隔 很 近 ， 则 磁头 几乎 不 用 换 道 或 换 道 时 间 极 短 。 如 果 相 差 太 大 ， 则 磁头 需要 
很 长 的 换 道 时 间 。 如 果 随 机 IO 很 多 ， 会 导致 磁头 不 停 换 道 ， 效 率 大 大 降低 。 
顺序 /并 发 IJO: 意思 是 ， 磁 盘 控 制 器 如 果 可 以 同时 对 一 个 RAID 系统 中 的 多 块 磁盘 
同时 发 送 IO 指令 (当然 这 里 的 同时 是 宏观 的 概念 ， 如 果 所 有 磁盘 都 在 一 个 总 线 或 
者 环 路 上 ， 则 这 里 的 同时 就 是 指向 一 块 磁盘 发 送 一 条 指令 后 不 必 等 待 它 回应 接着 
向 另 一 块 磁盘 发 送 IO 指令 )， 并 且 这 些 最 底层 的 IO 数据 包含 了 文件 系统 级 下 发 的 
多 个 IO 的 数据 ， 则 为 并 发 IO。 如 果 这 些 直 接 发 向 磁盘 的 IO 只 包含 了 文件 系统 下 
发 的 一 个 IO 的 数据 ， 则 此 时 为 顺序 IO， 即 控制 器 缓存 中 的 文件 系统 下 发 的 IO 队 
列 ， 只 能 一 个 一 个 来 。 并 发 IO 模式 在 特定 的 条 件 下 可 以 很 大 的 提高 效率 和 速度 。 
IO 并 发 几率 : 单 盘 ，IO 并 发 几率 为 0， 因为 一 块 磁盘 同时 只 可 以 进行 一 次 IO。 对 
F RAIDO, 4E 2 块 盘 情 况 下 ， 条 带 深度 比较 大 的 时 候 (条 带 太 小 不 能 并 发 IO)， 并 
发 2 个 IO 的 几率 为 /2。 其 他 情况 请 自行 运算 。 

IOPS: 完成 一 次 IO 所 用 的 时 间 = 寻 道 时 间 + 数 据 传 输 时 间 ，IOPS=IO 并 发 系数 /( 寻 
道 时 间 + 数 据 传输 时 间 )。 由 于 寻 道 时 间 相 对 于 传输 时 间 要 大 几 个 数量 级 ， 所 以 影 
响 IOPS 的 关键 因素 就 是 降低 寻 道 时 间 。 在 连续 IO 的 情况 下 ， 寻 道 时 间 很 短 ， 仅 
在 换 磁 道 时 候 需要 寻 道 。 在 这 个 前 提 下 ， 传 输 时 间 越 少 ，IOPS 就 越 高 。 

每 秒 IO 吞吐 量 : 显然 , 每 秒 IO 吞吐 量 =IOPS x 平均 IO SIZE. IO SIZE 越 大 ,IOPS 
越 高 , 每 秒 IO 吞吐 量 就 越 高 。 设 磁头 每 秒 读 写 数据 速度 为 V, V 为 定 值 . IOPS= 
IO 并 发 系数 /( 寻 道 时 间 +IO SIZE/V)。 代 入 得 每 秒 10 吞吐 量 =IO 并 发 系数 x IO SIZE x 
V/(V x 寻 道 时 间 +IO SIZE)。 可 以 看 出 影响 每 秒 IO 吞吐 量 的 最 大 因素 就 是 IO SIZE 
和 寻 道 时 间 。IO SIZE 越 大 ， 寻 道 时 间 越 小 ， 吞 吐 量 越 高 。 相 比 能 显著 影响 IOPS 
的 因素 ， 只 有 一 个 就 是 寻 道 时 间 。 


RAID 0 技术 详 析 


Virtual Disk 


来 说 , 参与 形成 RAID 0 的 各 个 物理 盘 会 组 成 一 个 逻辑 上 


的 就 是 了 


RAID 控制 器 收 到 并 分 析 处 理 ， 根 据 Block 映射 关系 算法 公式 转换 
成 对 组 成 RAID 0 的 各 个 物理 盘 的 真实 物理 磁盘 T0 请求 指 令 ， 收 


机 上 的 磁盘 控制 器 ) 对 这 个 虚拟 磁盘 发 出 的 指令 ， 都 被 


[Data Block 12 | 
[Data Block 13 


RAI 


或 写 入 数据 之 后 ， 再 提交 给 主机 磁盘 控制 器 。 
图 4.8 为 一 个 RAID 0 虚拟 磁盘 的 示意 图 。 


D 0 还 有 另 一 种 非 条 带 化 模式 ， 即 写 满 其 中 一 块 物理 磁盘 


之 后 ， 再 接着 写 另 一 块 ， 直 到 所 有 组 成 的 磁盘 全 部 写 满 。 这 种 模 Bs 虚拟 磁盘 
式 对 10 写 没 有 任何 优化 ,但 是 对 10 读 能 提高 一 定 的 并 发 10 读 几率 。 
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访问 RAID 0 磁盘 

下 面 我 们 来 具体 分 析 一 个 从 上 到 下 访问 RAID 0 磁盘 的 过 程 。 

11 假如 某 一 时 刻 ， 主 机 控制 器 发 出 指令 : BUR 初始 扇 区 10000 长 度 128, 

2] RAID 控制 器 接受 到 这 个 指令 之 后 ,立即 进行 计算 ,根据 对 应 公式 (这 个 公式 是 RAID 
控制 器 在 做 逻辑 条 带 化 的 时 候 制定 的 ] 算 出 10000 号 逻辑 扇 区 所 对 应 的 物理 磁盘 
的 扁 区 号 。 

3] 依次 计算 出 逻辑 上 连续 的 下 128 个 扇 区 所 在 物理 磁盘 的 扇 区 号 。 

4] 分 别 向 对 应 这 些 扇 区 的 磁盘 ， 再 次 发 出 指令 。 这 次 是 真实 的 读 取 数 据 了 ， 磁 盘 接 
受到 指令 , 各 自 将 数据 提交 给 RAID 控制 器 ,经 过 控制 器 在 Cache 中 的 组 合 , 再 提 
交 给 主机 控制 器 。 

分 析 以 上 过 程 ， 发 现 如 果 这 128 个 扇 区 都 落 在 同一 个 Segment 中 的 话 ， 也 就 是 说 条 带 
深度 容量 大 于 128 个 扇 区 的 容量 (64KB)， 则 这 次 10 就 只 能 真实 的 从 这 一 块 物理 盘 上 读 取 ， 
性 能 和 单 盘 相 比 会 减 慢 ， 因 为 没有 任何 优化 ， 反 而 还 增加 了 RAD 控制 器 额外 的 计算 开销 。 
所 以 ， 在 某 种 特定 条 件 下 要 提升 性 能 ， 让 一 个 10 尽量 扩散 到 多 块 物理 盘 上 ， 就 要 减 小 条 带 
深度 。 在 磁盘 数量 不 变 的 条 件 下 ， 也 就 是 减 小 条 带 大 小 Stripe SIZE( 也 就 是 条 带 长 度 )。 让 这 
个 10 的 数据 被 控制 器 分 割 ， 同 时 放 满 一 个 条 带 的 第 一 个 Segment、 第 二 个 Segment 等 ， 依 
此 类 推 ， 这 样 就 能 极 大 的 占用 多 块 物理 盘 。 


n 


E 
:| 总 是 以 为 控制 器 是 先 放 满 第 一 个 Segment， 再 放 满 第 二 个 Segment. 


ge 


其 实 是 同时 进行 的 ， 因 为 控制 器 把 每 块 盘 要 写 入 或 者 读 取 的 数据 都 计算 好 了 。 如 果 这 
些 目标 磁盘 不 在 相同 的 总 线 中 ， 那 么 这 种 宏观 “同时 ”的 力度 将 会 更 加 细 。 因 为 毕竟 计算 
机 总 线 是 共享 的 ， 一 个 时 刻 只 能 对 一 个 外 设 进行 10。 

HELA, RAID 0 要 提升 性 能 ， 条 带 做 的 越 小 越 好 。 但 是 又 一 个 矛盾 出 现 了 ， 就 是 条 带 太 
小 ， 导 致 并 发 10 几率 降低 。 因 为 如 果 条 带 太 小 ， 则 每 次 10 一 定 会 占用 大 部 分 物理 盘 ， 队 
列 中 的 10 就 只 能 等 待 这 次 10 结束 后 才能 使 用 物理 盘 。 而 条 带 太 大 ， 又 不 能 充分 提高 传输 
速度 ， 这 两 个 是 一 对 矛盾 ， 要 根据 需求 来 采用 不 同 的 方式 。 如 果 随 机 小 块 10 多 ， 则 适当 加 
大 条 带 深度 ， 如 果 连 续 大 块 10 多 ， 则 适当 减 小 条 带 深度 。 
接着 分 析 RAID 0 相对 于 单 盘 的 性 能 变化 。 根 据 以 上 总 结 出 来 的 公式 ， 可 以 推出 表 4.1。 

表 4.1 RAID 0 相对 单 盘 的 10 对 比 


um 


10 
SIZE/Stripe 
SIZE f 


181; 
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m 


随机 IO 连续 IO 随机 IO 连续 IO 

ge 提升 了 (+ | 提升 了 (1+ 并 提 升 了 | 提升 了 (1+ 并 
10 SIZE/Stripe Micha ci . S ei 提升 了 
SIZE 较 小 并 发 系数 ) | 发 系数 + 系数 ) (I+ 并 发 | 发 系数 + 系 zu 


fi 系数 倍 系数 ) 倍 数 ) 倍 


ik: JFR IO 和 IO SIZE/Stripe SIZE 是 一 对 矛盾 ， 两 者 总 是 对 立 的 。N= 组 成 RAID 0 的 磁盘 数目 。 系 
数 =IO SIZE/Stripe SIZE 和 初始 LBA 地 址 所 处 的 Stripe 偏 移 综合 系数 ， 大 于 等 于 1。 并 发 系数 = 并 发 IO 的 


422 RAID 1 技术 详 析 


RAID 1 是 这 样 一 种 模式 ， 拿 两 块 盘 的 例子 来 进行 说 明 ， 如 图 4.9 所 示 。 

RAID 1 和 RAID 0 不 同 , RAID 0 对 数据 没有 任何 保护 措施 , 每 个 Block 都 没有 备份 或 者 
校 验 保护 措施 。RAID 1 对 虚拟 逻辑 盘 上 的 每 个 物理 Block， 都 在 物理 盘 上 有 一 份 镜像 备份 ， 
也 就 是 说 数据 有 两 份 。 对 于 RAD 1 的 写 10， 速 度 不 但 没有 提升 ， 而 且 有 所 下 降 ， 因 为 数据 
要 同时 向 多 块 物理 盘 写 ， 时 间 以 最 慢 的 那个 为 准 ， 因 为 是 同步 的 。 而 对 于 RAID 1 的 读 IO 
请 求 ， 不 但 可 以 并 发 ， 而 且 就 算 顺 序 10 的 时 候 ， 控 制 器 也 可 以 像 RAID 0 一 样 ， 从 两 块 物 
理 盘 上 同时 读数 据 ， 提 升 速度 。RAID 1 可 以 没有 Stripe 的 概念 ， 当 然 也 可 以 有 。 同 样 我 们 


总 结 出 表 42. 
- 5 NR 


Extent 0 Extent 1 Virtual Disk 
Data Block 0 Data Block O Data Block 0 
Data Block 1 Data Block 1 Data Block 1 
Data Block 2 Data Block 2 Data Block 2 
Data Block 3 Data Block 3 Data Block 3 
Data Block 4 Data Block 4 Data Block 4 
Data Block 5 Data Block 5 Data Block 5 
Data Block 6 Data Block 6 | Data Block 6 
Data Block 7 Data Block 7 Data Block 7 
Data Block 8 Data Block 8 Data Block 8 
Data Block 9 Data Block 9 Data Block 9 
Data Block 10 Data Block 10 Data Block 10 
Data Block 11 Data Block 11 Data Block 11 
Data Block 12 Data Block 12 Data Block 12 
Data Block 13 Data Block 13 Data Block 13 
Data Block 14 Data Block 14 Data Block 14 
Data Block 15 Data Block 15 Data Block 15 

. . . 
. . . 
. 


. 
NN 
图 4.9_RAID 1 系统 示意 图 
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表 4.2 RAID 1 系统 相对 于 单 盘 的 10 对 比 


顺序 10 


IOPS 随机 连续 
随机 1O 连续 IO 
IO 10 
提升 N 倍 或 者 | 提升 N 倍 或 者 没有 
并 发 系数 倍 并 发 系数 倍 是 


注 ，N= 组 成 RAID 1 8: USED H o 


在 读 、 并 发 10 的 模式 下 ， 由 于 可 以 并 发 N 个 I10， 每 个 10 占用 一 个 物理 盘 ， 这 就 相当 
于 提升 了 N 倍 的 10PS。 由 于 每 个 10 只 独占 了 一 个 物理 盘 ， 所 以 数据 传输 速度 相对 于 单 盘 
并 没有 改变 ， 所 以 不 管 是 随机 还 是 顺序 10， 相 对 单 盘 都 不 变 。 

在 读 、 顺 序 10、 随 机 10 模式 下 ， 由 于 10 不 能 并 发 ， 所 以 此 时 一 个 10 可 以 同时 读 取 N 
个 盘 上 的 内 容 。 但 是 在 随机 10 模式 下 ， 寻 道 时间 影 响 很 大 ， 纵 使 同时 分 块 读 取 多 个 磁盘 的 
内 容 ， 也 架 不 住 寻 道 时 间 的 抵消 ， 所 以 性 能 提升 极 小 。 

在 读 、 顺 序 10、 连 续 10 模式 下 ， 寻 道 时 间 影 响 到 了 最 低 ， 此 时 传输 速率 为 主要 矛盾 ， 
同时 读 取 多 块 磁盘 的 数据 ， 时 间 减 少 为 VN， 所 以 性 能 提升 了 N 倍 。 

E I0 的 时 候 和 读 10 情况 相同 ， 就 不 做 分 析 了 。 写 10 因为 要 同时 向 每 块 磁盘 写 入 备份 
数据 ， 所 以 不 能 并 发 0， 也 不 能 分 块 并 行 。 但 是 如 果 控 制 器 把 优化 算法 做 到 极 至 的 话 ， 还 
是 可 以 并 发 10 的 ， 比 如 控制 器 从 10 队列 中 提取 连续 的 多 个 10， 可 以 将 这 些 ro 合并 ， 并 发 
写 入 磁盘 ， 前 提 这 几 个 10 必须 是 事务 性 的 ， 也 就 是 说 LBA 必须 连续 ， 不 然 不 能 作为 一 个 大 
的 合并 10。 而 且 和 文件 系统 也 有 关系 ， 文 件 系统 碎片 越 少 ， 并 发 几率 越 高 。 


423 RAID2 技术 详 析 


RAID 2 是 一 种 比较 特殊 的 RAID 模式 ， 它 是 一 种 专用 RAID， 现 在 早已 被 淘汰 。 它 的 基 
本 思想 是 在 10 到 来 之 后 ， 控 制 器 将 数据 按照 位 分 散 开 ， 顺 序 在 每 块 磁盘 中 存 取 lbit。 这 里 
有 个 疑问 , 磁盘 的 最 小 10 单位 是 扇 区 , 有 512 字 节 , 如 何 写 入 1bit 呢 ? 其 实 这 个 写 入 1bit， 
并 非 只 写 入 1bit。 我 们 知道 上 层 10 可 以 先 经 过 文件 系统 ， 然 后 才 通 过 磁盘 控制 器 驱动 来 向 
磁盘 发 出 10。 最 终 的 10 大 小 ， 都 是 N 倍 的 扇 区 ， 也 就 是 Nx512 字 节 ，N 大 于 等 于 1， 不 
可 能 发 生 N 小 于 1 的 情况 。 即 使 需要 的 数据 只 有 几 个 字 节 ， 那 么 也 同样 要 读 出 或 写 入 整个 
扁 区 ， 也 就 是 512 字 节 。 
明白 这 个 原则 之 后 ， 再 来 看 一 下 RAD 2 中 所 谓 的 “每 个 磁盘 写 1bit” 是 个 什么 概念 。 
10 最 小 单位 为 扇 区 (512 字 节 ]， 我 们 就 拿 一 个 4 块 数据 盘 和 3 块 校 验 盘 的 RAID 2 系统 为 例 
给 大 家 说 明 一 下 。 这 个 环境 中 ，RAID 2 的 一 个 条 带 大 小 是 4bit(1bitx4 块 数据 盘 )， 而 10 最 
小 单位 是 一 个 扇 区 ， 那 么 如 果 分 别 向 每 块 盘 写 1lbit， 就 需要 分 别 向 每 块 盘 写 一 个 扇 区 ， 每 
个 扇 区 只 包含 1bit 有 效 数据 ， 这 显然 是 不 可 能 的 ， 因 为 太 浪 费 空间 ， 且 没有 意义 。 
我 们 拿 以 下 I0 请 求 为 例 。 
11 写 入 WMX 10000 长 度 1, 这 个 IO 目的 是 要 向 LBA10000 写 入 一 个 肩 区 的 数 
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据 ， 也 就 是 512 字 节 。 


2] RAID 2 控制 器 接受 到 这 512 字 节 的 数据 后 ， 在 Cache 中 计算 需要 写 入 的 物理 磁盘 
的 信息 ， 比 如 定位 到 物理 扇 区 ， 分 割 数 据 成 bit。 


31 然后 一 次 性 写 入 物理 磁盘 扇 区 。 也 就 是 说 第 一 


块 物 理 盘 ， 控 制 器 会 写 入 本 次 10 数 


据 的 第 1、5、9、13、17、21 等 位 ， 第 二 块 物理 盘 会 写 入 2、6、10、14、18、 


22 等 位 ， 其 他 两 块 物理 盘 同 样 方式 写 入 。 


直到 这 样 将 数据 写 完 。 我 们 可 以 计算 出 来 ， 这 512 字 节 的 数据 写 完 之 后 ， 此 时 每 块 物 
理 盘 只 包含 128 字 节 的 数据 ， 也 就 是 一 个 扇 区 的 四 分 之 一 ， 那 么 这 个 扇 区 剩余 的 部 分 ， 就 


为 了 利用 起 这 部 分 空间 ， 等 下 次 I0 到 来 之 后 ， 控 制 器 会 对 数据 进行 bit 分 割 ， 将 数据 
填 入 这 些 空白 区 域 ， 控 制 器 将 首先 读 出 原来 的 数据 ， 然 后 和 新 数据 合并 之 后 ， 一 并 再 写 回 
这 个 扇 区 , 这 样 做 效率 和 速度 都 大 打折 扣 。 其 实 RAID 2 就 是 将 原本 连续 的 一 个 肩 区 的 数据 ， 


以 位 为 单位 ， 分 割 存放 到 不 连续 的 多 块 物理 盘 上 ， 因 为 这 样 可 以 在 任意 条 件 下 都 迫使 其 全 
磁盘 组 并 行 读 写 ， 提 高 性 能 ， 也 就 是 说 条 带 深度 为 1 位 。 这 种 极端 看 上 去 有 点 做 得 过 火 了 ， 


这 也 是 导致 它 最 终 被 淘汰 的 原因 之 一 。 


E 
考 


RAID 2 系统 中 每 个 物理 磁盘 扇 区 其 实 是 包含 了 N 个 扇 区 的 “ 残 体 ”。 


那么 如 果 出 现 需要 更 新 这 个 4 个 扇 区 中 某 一 个 扇 区 的 情况 ， 怎 么 办 ? 


这 种 情况 下 ， 必 须 先 读 出 原来 的 数据 ， 和 新 数据 合并 ， 然 后 在 一 并 写 入 。 其 实 这 种 情 


况 出 现 的 非常 少 。 我 们 知道 上 层 10 的 产生 ， 一 般 是 需要 先 经 过 0S 的 文件 系统 ， 然 后 才 到 
磁盘 控制 器 这 一 层 的 。 所 以 磁盘 控制 器 产生 的 10 一 般 都 是 事务 性 的 ， 也 就 是 这 个 10 中 的 
所 有 扇 区 很 大 几率 上 对 于 上 层 文 件 系统 来 说 是 一 个 完整 的 事务 ， 所 以 很 少 会 发 生 只 针对 这 


个 事务 中 某 一 个 原子 进行 读 写 的 情况 。 


这 样 的 话 ， 每 次 10 就 有 很 大 几率 都 会 包含 入 这 些 逻 辑 上 连续 的 扇 区 的 ， 所 以 不 必 担 心 
经 常会 发 生 那 种 情况 。 即 便 发 生 了 ， 控 制 器 也 只 能 按照 那 种 低 效率 的 做 法 来 做 ， 不 过 总 体 
影响 较 小 。 但 是 如 果 随 机 IO 比较 多 ， 那 么 这 些 I0 初始 LBA， 很 有 可 能 就 会 命中 在 一 个 两 
个 事务 交接 的 扇 区 处 。 这 种 情况 就 会 导致 速度 和 效率 大 大 降低 。 连 续 10 出 现 这 种 情况 的 几 


RAID 2 因为 每 次 读 写 都 需要 全 组 磁盘 联动 ， 所 以 为 了 最 大 化 其 性 能 ， 最 好 保证 每 块 磁 


盘 主 轴 同 步 ， 使 同一 时 刻 每 块 磁盘 磁头 所 处 的 扇 区 罗 辑 编号 都 一 致 ， 并 存 并 取 ， 达 到 最 佳 


性 能 。 如 果 不 能 同步 ， 则 会 产生 等 待 ， 影 响 速 度 。 


基于 RAID 2 并 存 并 取 的 特点 ，RAID 2 不 能 实现 并 发 10， 因 为 每 次 10 都 占用 了 每 块 物 


USE. 


RAID 2 的 校 验 盘 对 系统 不 产生 瓶颈 ， 但 是 会 产生 延迟 ， 因 为 多 了 计算 校 验 的 动作 。 校 


验 位 和 数据 位 是 一 同 并 行 写 入 或 者 读 取 的 。RAID 2 采 


和 汉 明 码 来 校 验 数据 ， 这 种 码 可 以 判 


断 修复 一 位 错误 的 数据 ， 并 且 使 用 校 验 盘 的 数量 太 多 ,4 块 数据 盘 需 要 3 块 校 验 盘 。 但 是 随 


着 数据 盘 数量 的 增多 ， 校 验 盘 所 占 的 比例 会 显著 减 小 。 
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RAID 2 和 RAID 0 有 些 不 同 ，RAID 0 不 能 保证 每 次 10 都 是 多 磁盘 并 行 ， 因 为 RAID 0 
的 条 带 深 度 相 对 于 RAID 2 以 位 为 单位 来 说 是 太 大 了 。 而 RAID 2 由 于 每 次 10 都 保证 是 多 磁 
盘 并 行 ， 所 以 其 数据 传输 率 是 单 盘 的 N 倍 。 为 了 最 好 的 利用 竺 性 ， 就 需要 将 这 个 特性 
的 主导 地 位 体现 出 来 。 
而 根据 IOPS=10 并 发 系数 /( 寻 道 时 间 + 数 据 传输 时 间 )， 寻 道 时 间 a 
几 个 数量 级 。 所 以 为 了 体现 数据 传输 时 间 减 少 这 个 优点 ， 就 必须 避免 寻 道 时 间 的 影响 ， 
最 佳 做 法 就 是 尽量 产生 连续 10 而 不 是 随机 10。 所 以 ，RAID 2 最 适合 连续 10 的 情况 。 咽 
根据 每 秒 10 吞吐 量 =10 并 发 系数 x10 SIZExV/(Vx 寻 道 时 间 +10 SIZE)， 如 果 将 IO SIZE n 
大 ， 则 每 秒 I0 吞吐 量 也 将 显著 提高 。 所 以 ，RAID 2 最 适合 的 应 用 就 是 产生 连续 10、 大 块 
10 的 情况 。 不 言 而 喻 ， 视 频 流 服务 等 应 用 适合 RAID 2。 不 过 ，RAID 2 的 缺点 太 多 ， 比 如 校 
验 盘 数量 多 、 算 法 复杂 等 , 它 逐 渐 被 RAID 3 BART o 表 4.3 比较 了 RAID 2 系统 与 单 极 的 性 能 


[: 
之 


表 4.3 RAID 2 系统 相对 单 盘 的 10 对 比 


顺序 IO 
非 事务 性 随机 IO | 事务 性 随机 IO 非 事务 性 随机 IO | 事务 性 随机 IO 
10 满足 公式 条 件 | 提升 极 小 提升 极 小 性 能 降低 提升 极 小 


Hk: N= 数据 盘 数 量 。RAID 2 不 能 并 发 10。 


424 RAID 3 OK IER 
图 4.10 所 示 为 一 个 RAID 3 系统 的 条 带 布局 图 。 
"> > <> fus C 


Extent 0 Extent 1 Extent 2 Extent 3 Extent4 

Stipe 0 Strip (00) Strip (1.0) Strip (20) Stip (30) Strip (40) 
| Bek perte Oy [Emma [T XE] [uk price 

Stripe 1 Strip (0,1) NETTE Strip (21) Stip 3.1) Strip (4.1) 
[Ci | |n ER weageneQis]| | [aaaan] 


Stipe2 Svpo2 | | supl2) 
Po on T 


[84.10 RAID 3 系统 示意 图 


由 于 RAID 2 缺点 比较 多 ， 比 如 非 事 务 性 10 对 它 的 影响 、 校 验 盘 数量 太 多 等 。RAID 2 
的 劣势 就 在 于 它 将 数据 以 bit 为 单位 进行 分 割 ， 将 原本 物理 连续 的 扇 区 转变 成 物理 不 连续 ， 
而 逻辑 连续 的 。 这 样 就 导致 了 它 对 非 事务 性 10 的 效率 低下 。 为 了 从 根本 上 解决 这 个 问题 ， 
RAID 3 出 现 了 。 

既然 要 从 根本 上 解决 这 个 问题 ， 首 先 就 是 需要 抛弃 RAID 2 对 扇 区 进行 分 散 的 做 法 ， 
RAID 3 保留 了 扇 区 的 物理 连续 。RAID 2 将 数据 以 bit 为 单位 分 割 ， 这 样 是 为 了 保证 每 次 10 
占用 全 部 磁盘 的 并 行 性 。 而 RAID 3 同样 也 保留 了 这 个 特点 ， 但 是 没有 以 bit 为 单位 来 分 散 
数据 ， 而 是 以 一 个 扇 区 或 者 几 个 扇 区 为 单位 来 分 散 数据 。RAID 3 还 采用 了 高 效 的 XOR 校 验 
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算法 ， 但 是 这 种 算法 只 能 判断 数据 是 否 有 误 ， 不 能 判断 出 哪 一 位 有 误 ， 更 不 能 修正 错误 。 
XOR 校 验 使 得 RAID 3 可 以 不 管 多 少 块 数据 盘 ， 只 需要 一 块 校 验 盘 就 足够 了 。 

RAID 3 的 每 一 个 条 带 ， 其 长 度 被 设计 为 一 个 文件 系统 块 的 大 小 ,深度 随 磁盘 数量 而 定 ， 
但 是 最 小 深度 为 1 个 扇 区 。 这 样 的 话 ， 每 个 Segment 的 大 小 一 般 就 是 1 个 扇 区 或 者 几 个 扇 
区 的 容量 。 以 图 4.10 的 例子 来 看 ， 有 4 块 数据 盘 和 1 块 校 验 盘 。 每 个 Segment 也 就 是 图 中 
的 一 个 Block Portion, 假如 为 2 个 扇 区 大 小 , 就 是 1KB, 则 整个 条 带 的 数据 部 分 大 小 为 4KB 。 
如 果 一 个 Segment 大 小 为 8 个 扇 区 ， 即 4KB， 则 整个 条 带 大 小 为 16KB。 

例 解 RAID 3 的 作用 机 制 

我 们 还 是 用 一 个 例子 来 说 明 RAID 3 的 作用 机 制 。 一 个 4 块 数据 盘 和 1 块 校 验 盘 的 
RAID 3 系统 ，Segment SIZE 为 2 个 扇 区 大 小 (1KB)， 条 带 长 度 为 4KB。 

RAID 3 控制 器 接收 到 了 这 么 一 个 10: 写 入 初始 扇 区 10000 KÆ 8， 即 总 数据 量 为 
8x512 字 节 =4KB。 

控制 器 先 定位 LBA10000 所 对 应 的 真实 物理 LBA， 假 如 LBA10000 恰好 在 第 一 个 条 带 
的 第 一 个 Segment 的 第 一 个 扇 区 上 ， 那 么 控制 器 将 这 个 10 数据 里 的 第 1、2 个 512 字 节 写 
入 这 个 扇 区 。 

同一 时 刻 ， 第 3、4 个 512 字 节 会 被 同时 写 入 这 个 条 带 的 第 二 个 Segment 中 的 两 个 扇 
区 ， 其 后 的 数据 同样 被 写 入 第 3、4 个 Segment 中 ， 此 时 恰好 是 4KB 的 数据 量 。 也 就 是 说 
这 4KB 的 10 数据 同时 被 分 散 写 入 了 4 块 磁盘 ， 每 块 磁盘 写 入 了 两 个 扇 区 ， 也 就 是 一 个 
Segment。 他 们 是 并 行 写 入 的 ， 包 括 校 验 盘 也 是 并 行 写 入 的 ， 所 以 RAD 3 的 校 验 盘 没 有 瓶 
颈 ， 但 是 有 延迟 ， 因 为 增加 了 计算 校 验 的 开销 。 

但 现代 控制 器 一 般 都 使 用 专用 的 KOR 硬件 电路 而 不 是 CPU 来 计算 KOR, 这 样 就 使 得 延 
迟 降 到 最 低 。 上 面 那 个 情况 是 10 SIZE 刚好 等 于 一 个 条 带 大 小 的 时 候 ， 如 果 IO SIZE 小 于 一 
个 条 带 大 小 呢 ? 
我 们 接着 分 析 ， 还 是 刚才 那个 环境 ， 此 时 控制 器 接收 到 10 大 小 为 2KB 的 写 入 请 求 ， 也 
就 是 4 个 连续 扇 区 ， 那 么 控制 器 就 只 能 同时 写 入 两 个 磁盘 了 ， 因 为 每 个 盘 上 的 Segment 是 
2 个 扇 区 ， 也 只 能 得 到 两 倍 的 单 盘 传 输 速率 。 同 时 为 了 更 新 校 验 块 ， 写 惩罚 也 出 现 了 。 但 是 
如 果 同 时 有 个 10 需要 用 到 另外 两 块 盘 ， 那 么 恰好 可 以 和 当前 的 10 合并 起 来 ， 这 样 就 可 以 
并 发 10， 这 种 相 邻 的 10 一 般 都 是 事务 性 的 连续 10。 
再 看 看 10 SIZE 大 于 条 带 长 度 的 情况 。 还 是 那个 环境 ， 控 制 器 收 到 的 10 SIZE 为 16KB。 
则 控制 器 一 次 所 能 并 行 写 入 的 是 4KB， 这 16KB 就 需要 分 4 批 来 写 入 4 个 条 带 。 其 实 这 里 
的 分 4 批 写 入 ， 不 是 先后 写 入 ， 而 是 同时 写 入 ， 也 就 是 这 16KB "PIS 1. 5. 9. 13KB 将 
控制 器 连续 写 入 磁盘 1， 第 2、6、10、14KB， 连 续 写 入 磁盘 2， 依 此 类 推 。 直 到 16KB 
数据 全 部 写 完 ， 是 并 行 一 次 写 完 。 这 样 校 验 盘 也 可 以 一 次 性 计算 校 验 值 并 且 和 数据 一 同 并 
行 写 入 ， 而 不 是 “分 批 ”。 

通过 比较 ， 我 们 发 现 ， 与 其 使 10 SIZE 小 于 一 个 条 带 的 大 小 ， 从 而 空闲 出 一 些 磁盘 ， 不 
如 使 10 SIZE 大 于 或 者 等 于 条 带 大 小 ， 取 消 磁盘 空余 。 因 为 上 层 10 SIZE 是 不 受 控 的 ， 控 制 
器 说 了 不 算 ， 但 是 条 带 大 小 是 控制 器 说 了 算 的 。 所 以 如 果 将 条 带 大 小 减 到 很 小 ， 比 如 2 个 
扇 区 、 一 个 扇 区 ， 则 每 次 上 层 10 一 般 情况 下 都 会 占用 所 有 磁盘 进行 并 发 传输 。 这 样 就 可 以 
提供 和 RAID 2 一 样 的 传输 速度 ， 并 避免 RAID 2 的 诸多 缺点 。RAID 3 和 RAID 2 一 样 不 能 并 
发 10， 因为 一 个 10 要 占用 全 部 盘 ， 就 算 IO SIZE 小 于 Stripe SIZE， 因 为 校 验 盘 的 独 享 也 不 
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一 般 来 说 ，RAID3 的 条 带 长 度 = 文 件 系 统 块 大 小 。 这样 ， 就 不 会 产生 条 带 不 对 
齐 的 现象 ， 从 而 避免 产生 碎片 。 


虽然 纯 RAID 3 系统 不 能 并 发 10, 但 是 可 以 通过 巧妙 的 设计 ， 形 成 RAID 30 系统 。 如 果 
文件 系统 块 为 4KB， 则 使 用 8 块 数据 盘 +2 块 校 验 盘 做 成 的 RAID 30 系统 ， 便 可 以 并 发 2 个 
IO 了 。 表 4.4 比较 了 RAID3 系统 与 单 盘 的 性 能 。 

表 4.4 RAID 3 系统 相对 单 盘 的 10 对 比 


顺序 IO 顺序 10 
连续 IO 随机 IO 连续 10 


Stripe SIZE 


ee 10 可 并 提升 了 NxIO 
IO SIZE 小 了 T 发 , 提升 | 提升 极 小 | SIZE/Stripe 不 支持 n 
Stripe SIZE 发 系 SIZE fi 


HE: N= 组 成 RAID 3 的 数据 磁盘 数量 。 和 RAID 2 相同 ， 事 务 性 连续 IO 可 能 并 发 。 


和 RAID 2 一 样 ，RAID 3 同样 也 是 最 适合 连续 大 块 10 的 环境 , 但 是 它 比 RAID 2 成 本 更 
低 ， 更 容易 部 署 。 

不 管 任何 形式 的 RAID， 只 要 是 面 对 随 机 I10， 其 性 能 与 单 盘 比 都 没有 大 的 优势 ， 因 为 
RAID 所 做 的 只 是 提高 传输 速率 、 并 发 10 和 容错 。 随 机 10 只 能 靠 降低 单个 物理 磁盘 的 寻 道 
时 间 来 解决 。 而 RAID 不 能 优化 寻 道 时 间 。 所 以 对 于 随机 10，RAID 3 也 同样 没有 优势 。 

而 对 于 连续 10， 因 为 寻 道 时 间 的 影响 因素 可 以 忽略 ，RAID 3 最 拿手 了 。 因 为 像 RAID 2 
—FÉ, RAID3 可 以 大 大 加 快 数据 传输 速率 ， 因 为 它 是 多 盘 并 发 读 写 。 所 以 理论 上 可 以 相当 
于 单 盘 提高 N 倍 的 速率 。 


425 RAID 4 技术 详 析 


图 4.11 所 示 为 一 个 RAID 4 系统 的 条 带 布局 图 。 

不 管 是 RAID 2 还 是 RAID 3, 它 们 都 是 为 了 大 大 提高 数据 传输 率 而 设计 ,而 不 能 并 发 10。 
诸如 数据 库 等 应 用 的 特点 就 是 高 频率 随机 IO 读 。 想 提高 这 种 环境 的 OPS, WIAR: 
IOPS-IO 并 发 系数 /( 寻 道 时 间 + 数 据 传输 时 间 )， 随 机 读 导致 寻 道 时 间 增 大 ， 靠 提高 传输 速 
率 已 经 不 是 办 法 。 所 以 观察 这 个 公式 ， 想 在 随机 10 频 发 的 环境 中 提高 OPS, 惟一 能 够 做 的 
要 么 用 高 性 能 的 磁盘 ( 即 平均 寻 道 时 间 短 的 磁盘 )， 要 么 提高 10 并 发 系数 。 不 能 并 发 10 的 ， 
想 办 法 让 它 并 发 10。 并 发 系数 小 的 ， 想 办 法 提高 系数 。 


提升 了 NxO 
SIZE/Stripe 
SIZE 倍 
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大 话 存储 


网 络 存 储 系 统 原 理 精 解 与 最 佳 实践 


Extent 0 lent Extent 2 Extent 4 
Speo $| supo Sirp (2.0) Strip (4.0) 
Dee oars 
29) 
TIR 
Dan ion7 Dara Bio 15 
Extent Stripe Length— tl 
Stripe 1 Strip (2.1) Strip (3,1) Strip (4,1) 
ETE] Daa Demat CEEE 
E Dets Bes Deis Ses 25 ara Bock 3 
Dat Bex zz Deis Ses 26 ars Bock 35 
Dots Beck zi IIS Cars Bock 
srpe2 $ Suip (1.2) Strip (22) Strip (3.2) Strip (4.2) 
Dern Brock De Dea Sox 0 Er 
D 5 EE Ti Daa Bod a5 
ETETTEJ Dss Seg i ET 
EE ey EE 
. . 
: 
: : : 


B: RAID 4 系统 示意 图 


TA Æ RAID 3 的 基础 上 ，RAID 4 被 发 展 起 来 。 我 们 分 析 RAID 3 的 性 能 的 时 候 ， 

| 曾经 提 到 过 一 种 情况 ,就 是 10 SIZE 小 于 Stripe SIZE 的 时 候 ， 此 时 有 磁盘 处 于 

9 空闲 状态 。 如 果 抓 住 这 个 现象 ， 同 时 让 队列 中 的 其 他 IO 来 利用 这 些 空闲 的 磁 
盘 ,， 岂 不 是 正好 达到 并 发 IO 的 效果 了 么 ”所 以 RAID 4 将 一 个 Segment 的 大 小 
做 得 比较 大 ， 以 至 于 平均 IO SIZE 总 是 小 于 Stripe SIZE， 这 样 就 能 保证 每 个 IO 
少 占用 磁盘 ， 甚 至 一 个 IO 只 占用 一 个 磁盘 。 


是 的 ， 这 个 思想 对 于 读 10 是 对 路 子 的 ， 但 是 对 于 写 I0 的 话 ， 有 一 个 很 难 克 服 的 问题 ， 
那 就 是 校 验 盘 的 争 用 。 考 虑 一 下 这 样 一 种 情况 ， 在 4 块 数据 盘 和 1 块 校 验 盘 组 成 的 RAID 4 
系统 中 ， 某 时 刻 一 个 10 占用 了 前 两 块 盘 和 校 验 盘 ， 此 时 虽然 后 两 块 是 空闲 的 ， 可 以 同时 接 
受 新 的 10 请 求 。 但 是 接受 了 新 的 10 请 求 ， 则 新 I0 请 求 同 样 也 要 使 用 校 验 盘 。 由 于 一 块 物 
理 磁 盘 不 能 同时 处 理 多 个 I0， 所 以 新 10 仍然 要 等 旧 10 写 完 后 ， 才 能 写 入 校 验 。 这 样 就 和 
顺序 10 没 区别 了 。 数 据 盘 可 并 发 而 校 验 盘 不 可 并 发 ， 这 样 不 能 实现 写 10 并 发 。 

如 果 仅 仅 根 据 争 用 校 验 盘 来 下 结论 说 RAID 4 不 支持 并 发 I0, 也 是 片面 的 。 我 们 可 以 设 
想 这 样 一 种 情形 ， 某 时 刻 一 个 10 只 占用 了 全 部 磁盘 的 几 块 盘 ， 另 一 些 磁盘 空 亲 。 如 果 此 时 
让 队列 中 下 一 个 10 等待 的 话 ， 那 么 当然 不 可 能 实现 并 发 10。 


g 如果 队列 中 有 这 样 一 个 I0, 它 需要 更 新 的 LBA 目标 和 正在 进行 的 IO 恰好 在 同 

一 条 带 上 ， 并且 处 于 空闲 磁盘 , 还 不 冲突 ,那么 此 时 我 们 就 可 以 让 这 个 IO 也 搭 

昌 一 下 正在 进行 的 IO 的 顺风 车 。 反正 都 是 要 更 新 这 个 条 带 的 校 验 Segment, 与 其 
两 个 IO 先后 更 新 ， 不 如 让 它们 同时 更 新 各 自 的 数据 Segment， 而 控制 器 负责 计 
算 本 条 带 的 校 验 块 。 这 样 就 完美 的 达到 了 IO 并 发 。 


但 是 ， 这 种 情况 遇 到 的 几率 真是 小 之 又 小 。 即 便 如 此 ， 控 制 器 如 果 可 以 对 队列 中 的 10 
目标 LBA 进行 扫描 , 将 目标 处 于 同一 条 带 的 10, 让 其 并 发 写 入 , 这 就 多 少 类 似 NCQ 技术 了 。 
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但 是 如 果 组 合 动作 在 上 层 就 已 经 算 好 了 ， 人 为 的 创造 并 发 条 件 ， 主 动 去 合并 可 以 并 发 的 ， 
合并 号 之 后 再 下 发 给 下 层 ， 那 么 事务 并 发 I0 的 几率 将 大 大 增加 ， 而 不 是 靠 底 层 碰 运气 来 实 
现 ， 不 过 此 时 称 为 “并 发 事务 ”更 为 合适 。 

所 谓 “ 上 层 ” 是 什么 呢 ? 上 层 就 是 一 级 磁盘 控制 器 驱动 程序 的 上 层 ， 也 就 是 文件 系统 
层 。 文 件 系统 管理 着 底层 磁盘 ， 决 定数 据 写 往 磁 盘 或 者 虚拟 卷 上 的 哪些 块 。 所 以 完全 可 以 
在 文件 系统 这 个 层次 上 ， 将 两 个 不 同事 务 的 10 写 操作 ， 尽 量 放 到 相同 的 条 带 上 。 比 如 一 个 
条 带 大 小 为 16KB， 可 以 前 8KB 放 一 个 10 的 数据 ， 后 8KB 放 另 一 个 10 的 数据 ， 这 两 个 10 
在 经 过 文件 系统 的 计算 之 后 ， 经 由 磁盘 控制 器 驱动 程序 ， 向 磁盘 发 出 同时 写 入 整个 条 带 的 
操作 ， 这 样 就 构成 了 整 条 写 、 如 果实 在 不 能 占 满 整 条 ， 那 么 也 应 该 尽量 达成 重 构 写 模式 ， 
这 样 不 但 并 发 了 10， 还 使 得 写 效率 增加 。 


生父 | 这 种 在 文件 系统 专门 为 RAID 4 做 出 优化 的 方案 , 最 典型 的 就 是 NetApp 公司 著 
名 的 WAFL 文件 系统 .WAFL 文件 系统 的 设计 方式 确保 了 能 够 最 大 限度 地 实现 
uo AREE. 


图 4.12 右 半 部 对 比 显 示 了 WAFL 如 何 分 配 同样 的 数据 块 ， 从 而 使 得 RAID 4 更 加 有 效 。 
WAFL 总 是 把 可 以 合并 写 入 的 数据 块 尽 量 同 时 写 到 一 个 条 带 中 ， 以 消除 写 惩 罚 ， 增 加 I0 并 
RAM. 相对 于 WAFL， 左 边 的 FFS( 普 通 文件 系统 ) 由 于 对 RAID 4 没有 感知 ， 产 生 的 IO 不 
适合 RAID 4 的 机 制 ， 从 而 被 零散 的 分 配 到 了 6 个 独立 的 条 带 ， 因 此 致使 6 个 校 验 盘 块 需要 
更 新 ， 而 只 能 顺序 的 进行 ， 因 为 校 验 盘 不 可 并 发 。 而 右边 的 WAFL 仅仅 使 用 3 道 条 带 ， 只 
有 3 个 校 验 块 需 要 更 新 ， 从 而 大 大 提高 了 性 能 。 表 4.5 比较 了 RAID 4 系统 与 单 盘 的 性 能 。 


RAID 4 with FFS RAID 4 with WAFL 


M Hi 


图 4.12 普通 文件 系统 与 WAFL 文件 系统 的 对 比 4.12 图 4.12 普通 文件 系统 与 WAFL 文件 系统 的 对 比 WAFL 文件 系统 的 对 比 


表 4.5 RAID 4 系统 相对 单 盘 的 10 对 比 


读 
特别 优化 的 并 发 IO 顺序 IO 特别 优化 的 并 发 IO 顺序 IO 


随机 IO ist 


s 


IOPS 


IO SIZE/Stripe | os TFS exam | 提升 了 S T mn 提升 了 
SIZE EK: 冲突 b 提升 极 起 Nf 冲突 突 没有 提升 Nd 
10 SIZE/Stripe 提升 并 发 | 几乎 没有 | 几乎 没有 | 提升 并 发 系 | 提升 并 发 


提升 极 小 ,| 性 能 降低 | 性 能 降低 


SIZE 较 小 j| 提升 提升 
iE: NOU RAID 4 数据 盘 数 量 。IO SIZE/Stripe SIZE 太 大 则 并 发 IO 几率 很 小 。 
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面临 淘汰 ， 取 而 代 之 的 是 拥有 高 言 并 发 几率 的 RAID 5 系统 。 所 谓 盲 并 发 几率 ， 就 是 说 上 层 


HA 如 果 IO SIZE/Stripe SIZE 的 值 太 小 ， 那 么 顺序 10 读 不 管 是 连续 还 是 随机 1O JU 


乎 都 没有 提升 。 顺 序 IO 写 性 能 下 降 ， 是 因为 IO SIZE 很 小 ， 又 是 顺序 IO, R 


uj 能 进行 读 改写 ， 性 能 会 降低 不 少 。 


所 以 ， 如 果 要 使 用 RAID 4， 不 进行 特别 优化 是 不 行 的 ， 至 少 要 让 它 可 以 进行 并 发 10。 
观察 表 4.5 可 知 ， 并 发 10 模式 下 性 能 都 有 所 提升 。 然 而 如 果 要 优化 到 并 发 几率 很 高 ， 实 在 
不 容易 ,目前 只 有 NetApp 的 WAFL 文件 系统 还 在 使 用 RAID 4, 其 他 产品 均 未 见 使 用 .RAID 4 


不 必 感 知 下 层 的 结构 ， 即 可 增加 并 发 系数 。 


42.6 ”RAID 5 技术 详 析 
图 4.13 为 一 个 RAID 5 系统 的 条 带 布局 图 。 
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Strip (42) 


Dora block a 


RAID 5 系统 示意 图 


整 条 写 、 重 构 写 与 读 改写 


整 条 写 (Full-Stripee Write): 整 条 写 需要 修改 奇偶 校 验 群 组 中 所 有 的 条 带 单元 ， 因 
此 新 的 奇偶 校 验 值 可 以 根据 所 有 新 的 条 带 数 据 计 算得 到 ， 不 需要 额外 的 读 、 写 操 
作 。 因 此 ， 整 条 写 是 最 有 效 的 写 类 型 。 整 条 写 的 例子 ， 如 RAID 2、RAID 3。 它 介 
每 次 10 总 是 几乎 能 保证 占用 所 有 盘 , 因此 每 个 条 带 上 的 每 个 Segment 都 被 写 更 新 ， 
所 以 控制 器 可 以 直接 利用 这 些 更 新 的 数据 计算 出 校 验 数据 之 后 ， 在 数据 被 写 入 数 
据 盘 的 同时 ， 将 计算 好 的 校 验 信息 写 入 校 验 盘 。 

重 构 写 (Reconstruct Write): 如 果 要 写 入 的 磁盘 数目 超过 阵列 磁盘 数目 的 一 半 ， 可 
采取 重 构 写 方式 。 在 重 构 写 中 ， 从 这 个 条 带 中 不 需要 修改 的 Segment 中 读 取 原来 
的 数据 ， 再 和 本 条 带 中 所 有 需要 修改 的 Segment. 上 的 新 数据 计算 奇偶 校 验 值 ， 并 
将 新 的 Segment 数据 和 没有 更 改过 的 Segment 数据 以 及 新 的 奇偶 校 验 值 一 并 写 
入 。 显 然 ， 重 构 写 要 牵涉 更 多 的 1/0 操作 ， 因 此 效率 比 整 条 写 低 。 重 构 写 的 例子 ， 
比如 在 RAID 4 中 ， 如 果 数 据 盘 为 8 块 ， 某 时 刻 一 个 10 只 更 新 了 一 个 条 带 的 6 个 
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Segment， 剩 余 两 个 没有 更 新 。 在 重 构 写 模式 下 ， 会 将 没有 被 更 新 的 两 个 Segment 
的 数据 读 出 ， 和 需要 更 新 的 前 6 Segment 的 数据 计算 出 校 验 数据 ， 然 后 将 这 8 
个 Segment 连同 校 验 数 据 一 并 写 入 磁盘 。 可 以 看 出 ， 这 个 操作 只 是 多 出 了 读 两 个 
Segment 中 数据 的 操作 和 写 两 个 segment 的 操作 ， 但 是 写 的 时 候 几乎 不 产生 延迟 
销 ， 因 为 是 宏观 同时 写 入 。 
e 读 改 写 [Read-Modify Write): 如 果 要 写 入 的 磁盘 数目 不 足 阵 列 磁盘 数目 的 一 半 ， 
可 采取 读 改写 方式 。 读 改写 过 程 是 ， 先 从 需要 修改 的 Segment 上 读 取 旧 的 数据 ， 
再 从 条 带 上 读 取 旧 的 奇偶 校 验 值 ， 根 据 旧 数 据 、 旧 校 验 值 和 需要 修改 的 Segment 
上 的 新 数据 计算 出 这 个 条 带 上 的 新 的 校 验 值 ， 最 后 写 入 新 的 数据 和 新 的 奇偶 校 验 
值 。 这 个 过 程 中 包含 读 取 、 修 改 和 写 入 的 一 个 循环 周期 ， 因 此 称 为 读 改写 。 读 改 
写 计算 新 校 验 值 的 公式 为 : 新 数据 的 校 验 数据 =( 老 数据 EOR 新 数据 ) EOR 老 校 
验 数 据 。 如 果 待 更 新 的 Segment 已 经 超过 了 条 带 中 总 Segment 数量 的 一 半 ， 则 此 
时 不 适合 用 读 改写 ， 因 为 读 改 写 需 要 读 出 这 些 Segment 中 的 数据 和 校 验 数据 。 而 
如 果 采 用 重 构 写 ， 只 需要 读 取 剩余 不 准备 更 新 数据 的 Segment 中 的 数据 即 可 ， 而 
后 者 数量 比 前 者 要 少 。 所 以 超过 一 半 用 重 构 写 ， 不 到 一 半 用 读 改写 。 整 条 更 新 就 
HERI. 
写 效 率 排列 为 整 条 写 > 重 构 写 > 读 改写 。 
图 4.14 是 RAID 5 系统 的 三 种 写 模式 示意 图 。 


图 4.14 RAID 5 写 模 式 示 意图 


为 了 解决 RAID 4 系统 不 能 并 发 10 WA, RAID 5 相应 而 出 。RAID 4 并 发 困难 是 因为 
它 的 校 验 盘 争 用 的 问题 ， 如 果 能 找到 一 种 机 制 可 以 有 效 地 解决 这 个 问题 ， 则 实现 并 发 就 会 
非常 容易 。RAID 5 恰恰 解决 了 校 验 盘 争 用 这 个 问题 。RAID 5 采用 分 布 式 校 验 盘 的 做 法 ， 将 
校 验 盘 打 散在 RAID 组 中 的 每 块 磁盘 上 。 如 图 4.14 所 示 ， 每 个 条 带 都 有 一 个 校 验 Segment. 
但 是 不 同 条 带 中 位 置 不 同 ， 在 相 邻 条 带 之 间 循 环 分 布 。 为 了 保证 并 发 10，RAID 5 同样 将 条 
带 大 小 做 得 较 大 ， 以 保证 每 次 10 数据 不 会 占 满 整 个 条 带 ， 造 成 队列 中 其 他 10 的 等 待 。 所 
以 ，RAID 5 要 保证 高 并 发 率 , 一 旦 某 时 刻 没有 成 功 进行 并 发 ， 则 这 个 10 几乎 就 是 读 改写 模 
式 ， 所 以 RAID 5 拥有 较 高 的 写 惩罚 。 
但 是 在 随机 写 10 频 发 的 环境 下 ， 由 于 频 发 的 随机 10 提高 了 潜在 的 并 发 几率 ， 如 果 碰 
巧 并 发 的 10 同 处 一 个 条 带 ， 还 可 以 降低 写 惩 罚 的 几率 。 这 样 ，RAID 5 系统 面 对 频 发 的 随机 
写 I10， 其 10PS 下 降 趋势 比 其 他 RAID 类 型 要 平缓 一 些 。 
来 分 析 一 下 RAID 5 具体 的 作用 机 制 。 以 图 4.14 的 环境 为 例 ， 条 带 大 小 80KB， 每 个 
Segment 大 小 16KB. 
11 某 一 时 刻 ， 上层 产生 一 个 写 10: 写 入 WAHE 10000 长 度 8, 即 写 入 4KB 的 数 
据 。 控 制 器 收 到 这 个 10 之 后 , 首先 定位 真实 LBA 地 址 , 假设 定位 到 了 第 1 个 条 带 
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的 第 2 个 Segment( 位 于 图 中 的 磁盘 2) 的 第 1 个 扇 区 (仅仅 是 假设 )， 则 控制 器 首先 
对 这 个 Segment 所 在 的 磁盘 发 起 10 写 请 求 ， 读 取 这 8 个 扇 区 中 原来 的 数据 到 


Cache。 


2] 与 此 同时 , 控制 器 也 向 这 个 条 带 的 校 验 Segment 所 在 的 磁盘 ( 即 图 中 的 磁盘 1) Joe 


10 读 请 求 ， 读 出 对 应 的 校 验 扇 区 数据 并 保存 到 Cache, 


31 利用 XOR 校 验 电 路 来 计算 新 的 校 验 数据 ， 公 式 为 : 新 数据 的 校 验 数据 =( 老 数据 
EOR 新 数据 ) EOR 老 校 验 数据 。 现 在 Cache 中 存在 : 老 数 据 、 新 数据 、 老 校 验 数 


据 和 新 校 验 数据 。 


4] 控制 器 立即 再 次 向 相应 的 磁盘 同时 发 起 10 写 请 求 ， 将 新 数据 写 入 数据 Segment, 


将 新 校 验 数据 写 入 校 验 Segment， 并 删除 老 数 据 和 老 校 验 数据 。 


在 上 述 过 程 中 ， 这 个 10 占用 的 始终 只 有 1、2 两 块 盘 ， 因 为 所 要 更 新 的 数据 Segment 


应 的 校 验 Segment 位 于 1 盘 ， 自 始 至 终 都 没有 用 到 其 他 任何 磁盘 。 如 果 此 时 队列 中 有 这 


么 一 个 10， 它 的 LBA 初始 目标 假如 位 于 图 中 下 方 红 框 所 示 的 数据 Segment 中 (磁盘 4), 10 
长 度 也 不 超过 Segment 的 大 小 。 而 这 个 条 带 对 应 的 校 验 Segment 位 于 磁盘 3 上 。 这 两 块 盘 


未 被 其 他 任何 I0 占用 ， 所 以 此 时 控制 器 就 可 以 并 发 的 处 理 这 个 10 和 上 方 红 框 所 示 拟 


达到 并 发 。 
RAID 5 相对 于 经 过 特别 优化 的 RAID 4 来 说 , 在 底层 就 实现 了 并 发 ， 


0, 


可 以 脱离 文件 系统 


的 干预 。 任何 文件 系统 的 10 都 可 以 实现 较 高 的 并 发 几率 , 又 称 为 盲 并 发 。 而 不 像 基 于 WAFL 
文件 系统 的 RAID 4， 需 要 在 文件 系统 上 规划 计算 出 并 发 环境 。 然 而 就 效率 来 说 ， 仍 然 是 
WAFL 拥有 更 高 的 并 发 系数 ， 因 为 毕竟 WAFL 是 靠 主动 创造 并 发 ， 而 RAID 5 却 是 做 好 了 陷 


阱 等 人 往 里 跳 ， 抓 着 一 个 是 一 个 。 
RAID 5 磁盘 数量 越 多 ， 可 并 发 的 几率 就 越 大 。 
表 4.6 RAID 5 系统 相对 单 盘 的 1O 对 比 


RAID 5 


IOPS 
miio | 连续 IO | 随机 IO_ | so | senio | 连续 IO | mano | 连续 IO 


IO SIZE W| 


支持 不 支持 
Stripe SIZE 
IO SIZE 大 于 
s ize | 提升 并 发 系 | 提升 并 发 | 几乎 没有 | 提升 了 10 SIZE | 提升 并 发 系 | 提升 并 发 
egment S 数 倍 系数 xN 倍 | 提升 Segment SIZE fë . 
且 重 构 写 


性 能 下 降 | 提升 极 小 


IO SIZE 小 于 
提升 并 发 系 | 提升 并 发 | ， 


Segment SIZE| ，， 
数 倍 系数 xN 倍 


且 读 改 写 
ik: RAID 5 最 适合 小 块 IJO。 并 发 IO 的 情况 下 ， 性 能 都 较 单 盘 有 所 提升 。 
图 4.15 为 一 个 RIADSE 系统 的 条 带 布局 图 。 
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FE 一下 一 一 


Extent 0 Extent 1 nt: Extent 3 Extent 4 
Supeo | StPoo Sio (10) Strip 2.0) Strip BO) Strip 4.0) 
[Ern Dus Bios Dar os Des Bo Par an 
Dep | Dan mom De Sick Dai BoT Daa Bo Pay AD) 
Daia Boa? Da oe Daa oa TT Daa Bo i Par AD, 
y | Ce Dots Bx Daa Box Daa Bo 15 Po (aD 
< ‘Extent Stripe Length- m 
Sue: K| SOT EAE ETAN Supe SIKI 
EE Dam Boa Da Bock ELEN] [7-33 
Depi | Dam Bo Dols Bo 25 ET Pau QA) Daa Bock 7 
Daia Bo 27 CE ET Pau GA) ED 
Y | cesses DT De oT Pov GA Daa Bo 
Stipe2 $ Strip (0,2) Strio (12) Strip (22) Strip (3,2) Strip (4.2) 
Daa Bock Dam Br PENOZA TB Dom Bo 
Depth | [DB CEE ET] Dao Dom Bocca 
Daa Bcc Dota Bock 46 CT] CEE Das Bo 38 
y |an CE RayG3 Das Bo s Das Bo S 
* . 
: H : 
H : : 
Strip (1,W) Strip (2W) Strip(3.W) Strip (4.W) 
Dota Sox Dua Boda Dota Sock 8 Dua Bock M4 
me Dais Box RET Dais Bock RES 
Dota Box Dua Bo MT Data Bock Data Bock MZ 
Dota Box MET Dota Sock Dua Bo MS Daa Bock 
LELLI TSR SBS oT 
WS Rok OT TS Boa FmT HS Boa ST HS Boa T 
* * * * 
H : 
: H : : 
| [Oe] [Ce] e) a 


园 4.15_RAID 5E 示意 图 (HS 代表 HotSpare) 
图 4.16 则 为 一 个 RAID 5EE 系统 的 条 带 布局 图 。 


八 cmn E M eM. 


Extent 0 Extent Extent 3 Extent 4 
stripe0 À Strip (0.0) Strip (1.0) Strip (3,0) Strip (4,0) 
Pariy (00) WS Bibi Daio Block Dota Bodl 8 
bept | [ay HS Bock T Dais Bios Data BoT 
Parity (2.0.0) HS Block2 Data Block 6 Data Block 10 
y [Cm HS BORS Date Bio 7 Data BoTT 
Fe >| 
Stripe1 车 | — stp) Strip 0,1) Strip (3,1) Strip (4,1) 
Data Block 12 Parity 0.1.1) Data Block 16 Data Block 20 
Depth Data Block 13 Panty (1.1. Data Block 17 Data Block21 
Data Block 14 Panty (21.7 Data Bloch 18 Data Block 22 
Y Data Block 15 Parity GT Data Bloct 19 Data Block23 
Stipe2 Å|  stip(o2) Strip (12) Strip 2.2) Strip (32) Strip (4,2) 
Data Block 24 Data Block 28. Party (0.2.2) HS Block 8 Data Block 32 
Depth Data Block 25 Data Biock 29 Party (1.2 2) HS Bock 9 Data Block 33 
Data Block 26 Data Block 30 Party (2.2.2) HS Block 10 Data Block 34. 
Y Data Block 27 Data Bock 31 Party (3.2.2) 'HS Block 11 Data Block 35 
. * * . . 
H : : : H 
: : : : 


B 16 RAID 5EE 


427 RAID 6 技术 详 析 
图 4.17 为 一 个 RAID 6 系统 的 条 带 布局 图 。 
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KC 03K 3 K 3 


C 


Extent 0 Extent 1 Extent 2 Extent 3 Extent 4 
Stripe0 4 Strip (0,0) Strip (10) Strip (2.0) Stip (3.0) Strip (4,0) 
Pay P (0.00) ] Py oo ELEM Data Block 4 Deis Bock €. 
Deph | | Panya (09) | PR GUT Datz Bock T Data Block 5 Data Bock 9 
Pany P (200) | Priv C10 Dar Baek Z Daa Boek 6 Dots Bock 10 
v | Cre FEOIR Taie pcr Daa Bok T Taie Bock TT 
| -Extent Stripe Length- >| 
Supe: À Strip (0.1) Strip (1.1) Strip (2,1) Strip (3,1) Strip (4,1) 
Dua Sb i2] Pary P (O11 EDEA CEI EEE 
Sepe | [aas] TEENI Py oa) Daa ECT Das KZ T 
Data Bick 14 | Far P (2.1.1) Parity Q 2,21) Daia Block 18 Data Block ZZ 
y C PVP OLT Prya G2) Das om Dae Bock 23 
Stripe 2 À Strip (0.2) Strip (12) Strip (2.2) Strip (3.2) Strip (4.2) 
Data Sick 24) Data Biocx 28 PaiyP 022] Par a 532] Data Bici 37 
ooph | [Bs socr | Dab Boci 2 Pry P22) COLEN] Tai Bicis 
| Dat Boer 36 PEE 227) Pary (237) Tata Bock 4 
Data Bk 27 Dam Becr PoiyP 322) Pary O32 Data Bock 35 
Y j 
. . : . . 
H H : 4 
AUN CURE: e LE . 
=š 
H417 RAID 6 系统 示意 图 
Sy ^ d T1 [sj CM 5k VIS 
RAID 6 之 前 的 任何 RAID 级 别 ， 最 多 能 保障 在 坏 掉 一 块 盘 的 时 


[ 候 ， 数 据 仍然 可 以 访问 。 


如 果 同 时 坏 掉 两 块 盘 ， 则 数据 将 会 丢失 。 为 了 增加 RAD 5 的 保险 系数 ，RAID 6 被 创立 了 。 
RAID 6 比 RAID 5 多 增加 了 一 块 校 验 盘 , 也 是 分 布 打 散 在 每 块 盘 上 ， 只 不 过 是 用 另 一 个 方程 
带 上 保存 了 两 份 数学 上 不 相关 的 校 验 


式 来 计算 新 的 校 验 数据 。 这 样 ，RAID 6 同时 在 一 个 条 i 
数据 ， 这 样 能 够 保证 同时 坏 两 块 盘 的 情况 下 ， 数 据 依然 可 以 通过 联 立 这 两 个 数 


ML 


学 


关系 等 式 


来 求 出 丢失 的 数据 。RAID 6 与 RAID 5 相 比 , 在 写 的 时 候 会 同时 读 取 或 者 写 入 额外 的 一 份 校 
验 数据 。 不 过 由 于 是 并 行 同 时 操作 ， 所 以 不 比 RAID 5 慢 多 少 。 其 他 特性 则 和 RAID 5 类 似 。 
表 4.7 RAID 6 系统 相对 单 盘 的 IO 对 比 


10 SIZE 近似 
Stripe SIZE 


提升 极 小 


10 SIZE 大 于 
提升 并 发 系 | 提升 并 发 系 | 几 乎 没有 | 提升 了 


提升 了 N fit 


IO SIZE/ 


提升 并 发 系 


提升 并 发 


提升 极 小 


顺序 IO 


提升 了 
N fi 


Segment SIZE ^ : N ,| 性 能 下 降 | 提升 极 小 
A 数 倍 数 xN 倍 Segment SIZE 倍 | 数 信 系数 xN fii 
重 构 写 
10 SIZE 小 于 . 7 : 
提升 并 发 系 | 提升 并 发 系 提升 并 发 系 | 提 升 并 发 ET S 
Segment SIZE s 没有 提升 NE i 性 能 下 降 | 性 能 下 降 
数 倍 数 倍 数 倍 系数 倍 


读 改 写 


t 941 


解决 这 些 问 题 的 。 


RAID, EIR, EM 


AERAN 


9—mw- 


RAID 卡 
软 RAID 
虚拟 磁盘 
卷 

文件 系统 


七 星 大 侠 将 七 星 北斗 阵 式 永 传 于 世 ， 虽 然 其 思想 博大 精深 ， 但 是 这 个 阵 式 并 没有 
给 出 如 何 去 具 体 地 实现 这 七 种 阵 式 。 但 没有 关系 ， 有 了 正确 的 思想 才能 更 好 地 指导 实 
践 。 人 们 根据 七 星 北 斗 的 思想 ， 发 明了 各 种 各 样 的 RAID 实现 方式 。 

然而 ,实现 了 各 种 RAID, 许多 问题 也 随 之 而 来 ， 且 看 人 们 是 怎么 运用 各 种 手段 来 
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5.1 操作 系统 中 RAID 的 实现 和 配置 


有 人 直接 在 主机 上 编写 程序 ， 运 行 于 操作 系统 底层 ， 将 从 主机 SCSI 或 者 IDE 控制 器 提 
交 上 来 的 物理 磁盘 ， 运 用 七 星 北 斗 的 思想 ， 虚 拟 成 各 种 模式 的 虚拟 磁盘 ， 然 后 再 提交 给 上 
层 程序 接口 ， 如 卷 管理 程序 。 这 些 软件 通过 一 个 配置 工具 ， 让 使 用 者 自行 选择 将 哪些 磁盘 
组 合 起 来 并 形成 哪 种 类 型 的 RAID 。 

比如 ， 某 台 机 器 上 安装 了 2 块 IDE 磁盘 和 4 块 SCSI 磁盘 ，IDE 硬盘 直接 连接 到 主板 集 
成 的 IDE 接口 上 ，SCSI 磁盘 则 是 连接 到 一 块 PCI 接口 的 SCSI 卡 上 。 在 没有 RAID 程序 参与 
的 条 件 下 ， 系 统 可 以 识别 到 6 块 磁盘 ， 并 且 经 过 文件 系统 格式 化 之 后 ， 挂 载 到 某 个 盘 符 或 
者 目录 下 ， 供 应 用 程序 读 写 。 

安装 了 RAID 程序 之 后 ， 用 户 通过 配置 界面 ， 先 将 两 块 IDE 磁盘 做 成 了 一 个 RAID 0 系 
统 。 如 果 原 来 每 块 IDE 磁盘 是 80GB 容量 , 做 成 RAID 0 之 后 就 变 成 了 一 块 160GB 容量 的 “ 虚 
拟 "了 磁盘。 然后 用 户 又 将 4 块 SC5I 盘 做 了 一 个 RAID 5 系统 ,如 果 原 来 每 块 SCSI 磁盘 是 73GB 
容量 ，4 块 盘 做 成 RAID 5 之 后 虚拟 磁盘 的 容量 将 约 为 3 块 盘 的 容量 ， 即 216GB. 

当然 ， 因 为 RAID 程序 需要 使 用 磁盘 上 的 部 分 空间 来 存放 一 些 RAID 信息 ， 所 以 实际 容 
景 将 会 变 小 。 经 过 RAD 程序 的 处 理 之 后 ， 这 6 块 磁盘 最 终 变 成 了 两 块 虚拟 磁盘 。 如 果 是 在 
Windows 系统 中 ， 打 开 磁 盘 管 理 器 只 能 看 到 2 块 硬盘 ， 一 块 容量 为 160GB( 硬 盘 1) 5»— 
央 容 量 为 216GB( 硬 盘 2]。 之 后 ， 可 以 对 这 两 块 盘 进 行 格式 化 ， 比 如 格式 化 为 NTFS 文件 系 
统 。 格 式 化 程序 丝毫 不 会 感觉 到 有 多 块 物理 硬盘 正在 写 入 数据 。 

比如 ， 格 式 化 程序 某 时 刻 发 出 命令 ， 向 硬盘 1( 由 两 块 IDE 磁盘 组 成 的 RAID 0 虚拟 盘 ) 
fJ LBA 起 始 地 址 10000， 长 度 128， 写 入 内 存 起 始 地 址 某 某 的 数据 。RAID 程序 会 截获 这 个 
命令 并 做 分 析 , 硬盘 1 是 一 个 RAID 0 系统 , 那么 这 块 从 LBA10000 开始 算 起 的 128 个 扇 区 
的 数据 ， 会 被 RAID 引擎 计算 ， 将 逻辑 LBA 对 应 成 物理 磁盘 的 物理 LBA， 将 对 应 的 数据 写 
入 物理 磁盘 。 写 入 之 后 ， 格 式 化 程序 会 收 到 成 功 写 入 的 信号 ， 然 后 接着 做 下 一 次 10。 经 过 
这 样 的 处 理 ， 上 层 程序 完全 不 会 知道 底层 物理 磁盘 的 细节 。 其 他 RAID 形式 也 都 是 相同 的 道 
理 ， 只 不 过 算法 更 加 复杂 而 已 。 但 是 即使 再 复杂 的 算法 ， 经 过 CPU 运算 ， 也 要 比 磁盘 读 写 
速度 快 几 千 几 万 倍 。 


IDE 磁盘 和 SCSI 磁盘 组 合成 虚拟 磁盘 ， 不 过 除非 特殊 需要 ， 否 则 没有 这 样 设 


Be 同一 个 磁盘 组 只 能 用 相同 类 型 的 磁盘 ， 虽 然 也 可 以 设计 成 将 
i5 HS. 


5.1.1. Windows Server 2003 高 级 磁盘 管理 


我 们 以 Windows Server 2003 企业 版 操作 系统 为 例 ,示例 一 下 Windows 是 如 何在 操作 
系统 上 用 软件 来 实现 RAID 功能 的 。 
每 个 例子 的 环境 都 是 一 个 具有 5 块 物理 磁盘 的 PC 机 ， 每 块 磁盘 容量 为 100MB 。 
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1. 磁盘 初始 化 和 转换 
11 新 磁盘 插入 机 箱 并 启动 操作 系统 之 后 ， 打 开 磁 盘 管 理 器 ，Windows 会 自动 弹出 一 
个 配置 新 磁盘 的 向 导 ， 如 图 5.1 所 示 。 
磁盘 初始 化 和 转换 向 导 x| 
欢迎 使 用 磁盘 初始 化 和 转换 向 导 
此 向 导 帮 助 您 初始 化 新 磁盘 ， 并 格 空 的 基本 磁盘 转换 
[rm 


您 可 使 用 动态 磁盘 来 创建 以 软件 为 基础 的 卷 ， 这 些 卷 
可 以 是 镜像 的 ,也 可 以 为 带 区 或 跨 区 卷 。 SL 以 不 用 
重新 启动 计算 机 就 扩展 单个 辜 盘 和 适 区 郑 


Dl 


将 磁盘 转换 为 动态 后 ， 您 只 能 在 该 磁盘 的 卷 上 使 用 
Windows 2000 或 更 新 版 本 的 Windowse 


要 继续 ， 请 单 击 “ 下 一 步 ”。 


取消 
B 5.1 初始 界面 
2] 单 击 “下 一 步 ” 按 钮 ， 出 现 图 5.2 所 示 的 对 话 框 。 
xl 
选择 要 初始 化 的 磁盘 
磁盘 必须 经 过 初始 化 ,逻辑 磁盘 管理 器 才能 访问 。 Y 
选择 至 少 一 个 要 初始 化 的 磁盘 。 
waw 
四 磁盘 1 
v 磁盘 2 
v 磁盘 3 
v 磁盘 4 
v 磁盘 5 


《上 一 步 @) 取消 


Bbo 选择 要 初始 化 的 磁盘 


3] 单 击 “下 一 步 ”按钮 ， 初 始 化 所 有 新 磁盘 ， 如 图 5.3 所 示 。 
4] 单 击 “ 下 一 步 ” 按 钮 ,将 所 有 磁盘 转换 为 动态 磁盘 ， 如 图 5.4 所 示 。 所 谓 的 动态 磁 
盘 就 是 可 以 用 来 做 RAID 以 及 卷 管理 的 磁盘 。 
5] 单 击 “ 完 成 ”按钮 。 查 看 磁盘 管理 器 中 的 状态 ， 如 图 5.5 所 示 。 
我 们 从 图 5.5 中 可 以 看 到 , 磁盘 0 为 基本 磁盘 , 同时 也 是 系统 所 在 的 磁盘 以 及 启动 磁盘 
这 个 磁盘 不 能 对 其 进行 软 RAID 或 卷 管理 操作 。 
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WiESUILAI RAS 


选择 要 转换 的 磁盘 
您 所 选 的 磁盘 会 被 转换 成 动态 磁盘 。 


选择 至 少 一 个 磁盘 来 转换 
磁盘 四 ) 


xm | 
Bbs 选择 要 转换 的 磁盘 


正在 完成 磁盘 初始 化 和 转换 向 导 
您 已 成 功 地 完成 了 碰 盘 初始 化 和 转换 向 导 。 


TARE 


您 已 选择 
NER. 


要 关闭 这 个 向 导 ， 请 单 击 “ 完 成 ”。 


取消 
图 5.4_ 初 始 化 磁盘 


€) 
1.99 Gb 1,99 Gb NTFS 
联机 状态 良好 (系统 ) 


101 wb 101 mB 
未 指派 
c wa  n——H 
动态 
101 MB 101 mB 
联机 未 指派 N 


未 指派 
a wm mn— ———— áÁÜ 二 
101 wb 101 wb 

um 


æ ums | AAAbALLAL GDAHAIOS XÉT 
动态 


101 mB 101 mB 
联机 ie i] 
E a rmunoc 
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2. 新 建 卷 


11 在 “磁盘 1” 上 右 击 ， 在 弹出 的 快捷 菜单 中 选择 “新 建 卷 ” 命 令 ， 如 图 5.6 所 示 ， 
系统 弹出 “新 建 卷 向 导 ” 对 话 框 ， 以 选择 要 创建 的 卷 的 类 型 ， 如 图 5.7 所 示 。 


EB CERO 


d. 系统 I 具 c umo m —————————ÁÁÁt 
*jsreta 基本 €) 
由 -全 共享 文件 天 1.99 oB 1,99 cB NFS 
e 8j 本 地 用 户 和 得 联机 状态 良好 ORO 
由 quesos 
设备 管理 器 Ə wmi  c— M——Q 
c 8g cit 动态 
由 gy 可 移动 存储 meen. 
ERATES 5A BE C 
ss 服务 和 应 用 程序 meo 。 巷 执 成 基本 磅 全 C) 
HAS GPT ELO 
101 NP 
Ə wz 
动态 
101 1B 
联机 
Ə wr, 
XD me 
Be tz Gee 
EEAS E xi 
选择 卷 类 型 Q 
有 五 个 类 型 的 卷 : 简单 、 跨 越 、 带 区 、 镜 像 和 RAID-S. S] 
选择 要 创建 的 卷 
c m Gy C Wibon 
CBE QU C RAID-5 (B) 
C ED 


ELE 


B 5.7 ”选择 卷 类 型 
这 里 有 5 个 选项 ， 下 面 分 别 来 介绍 这 些 选项 。 
e MFE: 指 卷 将 按照 磁盘 的 顺序 依次 分 配 空间 。 简 单 卷 与 磁盘 分 区 功能 类 似 ， 
卷 空间 只 能 在 一 块 磁盘 上 分 配 ， 并 且 不 能 交叉 或 者 乱 序 。 
e BKE: 跨 区 卷 在 简单 卷 的 基础 上 ， 可 以 让 一 个 卷 的 空间 跨越 多 块 物 理 磁盘 。 
相当 于 不 做 条 带 化 的 RAID 0 系统 。 
e EKE: 带 区 卷 相 当 于 条 带 化 的 RAID 0 系统 。 
e HE: 镜像 卷 相 当 于 RAID 1 系统 。 
*  RAID-5 卷 : 毫 无 疑问 ， 这 种 方式 就 是 实现 一 个 RAID 5 卷 。 
图 5.8 做 的 是 一 个 大 小 为 101MB 的 简单 卷 ， 也 就 是 将 物理 磁盘 1 全 部 容量 划分 给 
这 个 卷 。 可 以 发 现 ， 简 单 卷 只 能 在 一 块 物理 磁盘 上 划分 ， 图 中 “添加 ”按钮 是 灰 
色 的 ， 证 明 不 能 跨越 多 块 磁盘 。 
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我 们 再 来 看 看 跨 区 卷 ， 如 图 5.9 所 示 。 


serre xi 
amm © 
ATEREA ERENS. & 
IREGREDSEE., MESE “EM. 
TAW: 


» 
101 MB i——— 
iy ws 
ü "s 


XXE: 101 


最 大 可 用 空间 量 o) 
选择 空间 量 0m) D 101 


somn oma | 
Bs 划分 大 小 


SEAS ax 
xm € 
VEGTUUR RERO BERE A & 
选择 要 使 用 的 动态 磁盘 ， 然 后 单 击 “ 添 加 ”. 
可 用 QD: Eie: 
4 101 MB Eme» | 2 101 MB 
i 5 101 MB € q 
< [3] 
卷 大 小 总 数 0B) 02 
最 大 可 用 空间 量 WiB) hor = 
选择 空间 量 0) QD: 四 4 
<- Y 取消 
5.9_ 跨 区 卷 


2] 跨 区 卷 允许 卷 容量 来 自 多 个 硬盘 ， 并 且 可 以 在 每 个 硬盘 上 选择 部 分 容量 而 不 一 定 
非 要 选择 全 部 容量 。 在 此 ， 我 们 将 全 部 容量 划分 给 这 个 卷 ， 卷 总 容量 为 200MB, 
如 图 5.10 所 示 。 


型 计 香 机 管理 全 地 ) 本 
db 和 ET 有 ə ezo 
sgeeaes xx 3 
SERENA imo 1,99 9 nts 
sg 本 地 用户 联机 | 状 志良 好 OR 
BEI 
B asm ə m: 
c] mt on s 
BREESE is teer 
m p wx: | 
ELI M - 
xw ico wo 
Li RERE 
Ə ito M 
L3 h 
Fay im 
*« cue 
a a: 
e 
xim 101 m 
m de 
ə wks 
3e 
xim s 
Ft, uem ix] 
RU IEEROT NEES 
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3] 


4] 


5] 
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建 好 的 跨 区 卷 ， 将 用 紫色 来 表示 。 此 外 ， 还 可 以 灵活 地 扩展 这 个 卷 的 容量 ， 妇 
图 5.11 所 示 。 


E ed 
pd 


Ll 
i Ba SMEERT 
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EEE 
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Ed 
L] 


m 


扩展 容量 


我 们 向 这 个 卷 中 再 添加 一 块 磁盘 ， 磁 盘 3， 如 图 5.12 所 示 。 
x 
PE EA — Eta HOC RU. 


加 完 之 后 


3. 删除 卷 
5.14 所 示 ， 可 以 


如 


"e. = 


卷 大 小 总 数 016): [ 
最 大 可 用 空间 量 0) - fior 


ARTAR Q: m a 
«x-sem|r-5w»| mi 


B 增加 一 块 物理 磁盘 


个 卷 的 容量 就 被 扩充 到 了 300MB， 如 图 5.13 3 所 示 。 
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ERE 
T FAIA Ə wma 
Ta [E 
Li 
s z.“ 
vaz B 
Es 
wee "m wm. 
ETAT € 
BA 
a wu 
35 
Ld 
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Bb: 删除 卷 
11 下 面 用 磁盘 1 的 前 50MB 的 容量 和 磁盘 2 的 全 部 容量 来 做 一 个 跨 区 卷 ， 如 图 5.15 


所 示 。 
ad 

arag Q 
VERTU URBC HAE RR ROSA € v] 
RORIS , MERE "Em" 
JAV: BNO: 

uam O g TOT P 
Rs 101 uB (NO 
« SENS QD 
卷 大 小 总 数 1B) 151 

最 大 可 用 空间 量 WB) EU 
选择 空间 量 1B) Œ): fo E: 


2] 做 好 后 的 卷 如 图 5.16 所 示 。 此 外 ， 磁 盘 1 剩余 的 51MB 容量 还 可 以 再 新 建 卷 ， 如 


图 5.16 所 示 。 
mienserio 
Ei FAIR æ wmv — 
serra zt FM-——— O 
Pei ITI EET 
2A raso en xem Et 
D ef tiet. 
asena ə as: 
E EE. [. 
Sg Teasa 
ER ERU BA BERN REA s. 
gun 
RR FT 
TO E E LT] 
dos ice | 
ki LLLI 
FEE m 
10: WB 101 mg s 
En FEW m 
ə ts: 
LJ 
dm LT 
Lg 未 指派 
g 1 a 


B 5.16_ 剩余 空间 可 以 新 建 郑 


4. 带 区 卷 


下 面 我 们 来 做 一 个 带 区 卷 ， 即 条 带 化 的 RAD 0 卷 。 我 们 选择 用 磁盘 1 和 磁盘 2 中 各 
11021 
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30MB 的 容量 来 做 一 个 60MB 的 卷 ， 如 图 5.17 和 图 5.18 所 示 。 


ARER 5 
ES UR RERO ICE ORCI. & 
选择 要 使 用 的 动态 磁盘 "est bm". 

JAV: BMO: 


— Ó—— moo | 
s 101 NB < BP OD. 


《 全 部 扣除 D 
kišto): | — 6 
最 大 可 用 空间 量 0): L 
选择 空间 量 a) (D: [» EN 


He aata 


E 
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m go emn 


ETE 
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做 好 之 后 的 带 区 卷 会 用 绿色 标识 。 
5. 镜像 郑 


我 们 再 来 做 一 个 镜像 卷 ， 即 RAD 1 卷 。 我 们 用 磁盘 1 和 磁盘 2 的 各 40MB 容量 来 做 一 


个 40MB 的 卷 ， 如 图 5.19 和 图 5.20 所 示 。 
做 好 后 的 镜像 卷 会 用 棕色 标识 。 


x 
选择 磁盘 
您 可 以 选择 磁盘 并 为 此 卷 设置 磁盘 大 小 。 多 


选择 要 使 用 的 动态 磁盘 ， 然 后 单 击 “ 添 加 ”。 
JAV 


2s 101 Nb 


景 大 可 用 空间 量 0B): 
选择 空间 量 U) E) 


Rh 
Bb: 镜像 关 
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Igiene 
系统 了 具 ə mo a 
= O sss 基本 €) 
REXER 199 c [1.59 cb mrs 
m z 本 地 用 户 和 组 联机 | 状态 良好 co 
e Bj 性 能 日 志和 警报 
设备 管理 器 s um: | 
REELI 动态 I | 
T e meam 101 ws «o 加 je m 
EBRESUS 联机 状态 良好 上 未 指派 
s ə wez 
a go Ba mem e - " 
101 WB 40 je wp 
联机 状态 良好 | 未 指派 


圆 5.20 镜像 卷 的 状态 


6. RAID 5 类 型 的 卷 
最 后 , 我 们 来 做 一 个 RAID 5 类 型 的 卷 , 这 里 我 们 将 所 有 磁盘 的 各 50MB 空间 做 一 个 卷 ， 
如 图 5.21 所 示 。 然 后 再 用 所 有 硬盘 的 20MB 空间 做 一 个 卷 ， 形 成 两 个 RAID 5 卷 。 
[annos ~ 
人 


这 择 要 使 用 的 动态 而 盘 ， NEAS “EM”. 
JAV: 


最 大 可 用 空间 量 00) E 


BRS O: B a 
《< 上 一步 他) Rih 


[521 创建 RAID 5 # 
做 好 后 的 RAID 5 卷 会 用 亮 绿 色 标 识 ， 如 图 5.22 所 示 。 
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图 5.22 RAID 5 卷 的 状态 


做 好 的 任何 卷 均 可 随意 被 删除 ， 如 图 5.23 所 示 。 
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Bg 5.23 “删除 了 一 个 RAID 5 # 


里 实际 上 应 该 算是 一 个 带 有 RAID 功能 的 卷 管理 软件 ， 而 不 仅 


仅 是 RAID 软件 。 卷 管理 的 概念 我 们 在 下 文 会 解释 。 


5.1.2 Linux 下 软 RAID 配置 示例 


我 们 将 在 一 台 装 有 8 块 物理 磁盘 的 机 器 上 安装 RedHat Enterprise Linux Server 4 


Update 5 Ji 


:系统 。 具 体操 作 过 程 如 下 


1] 选择 手动 配置 磁盘 界面 ， 如 图 5.24 所 示 。 


Disk Partitioning 


Setup 


One of the largest obstacles for 
a new user during a Linux 
installation is partitioning. This. 
process is made easier by 


providing automatic 
partitioning. 


By selecting automatic 


Automatic Parttioning sets partitions based on the selected 
installation type. You also can customize the partitions once 
They have been created, 


The manual disk partitioning rca, Disk Druid, allows you to 
create panitins in an interactive environment. You can set the 


partitioning, you do not have to fie system types, mount points, partition sizes, and more. 


use partitioning tools to assign O Automatically partition 
mount points, create partitions, & Manually partition with Disk Druid 


or allocate space for your 


installation. 


To partition manually, choose 
the Disk Druid partitioning 


tool. 
Use the Back button to choose [| 
图 Hide Help| [Release Notes [4 Bak > Next 


E 524 ”选择 手动 配置 


2] 可 以 看 到 系统 识别 到 了 8 块 物理 磁盘 ， 如 图 5.25 所 示 。 
3] 我 们 必须 划分 一 个 /boot 分 区 用 来 启动 基本 的 操作 系统 内 核 。 我 们 用 第 一 块 磁盘 
sda 的 前 100MB 容量 来 创建 这 个 分 区 ， 如 图 5.26 所 示 。 
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Drive jdev/sda (1020 MB) (Model: VMware, VMware Virtual S) al Drive jdev/sda (1020 MB) (Model: VMware, VMware Virtual S) fel 
ree Free [. 
hinaus fem j 
Drive /dev/sdb (1020 MB) (Model: VMware, VMware Virtual S) Drive /dev/sdb (1020 MB) (Model: VMware, VMware Virtual S) l| 
ree |Free 
oa me 11024 me 
Drive /dev/sdc (1020 MB) (Model: VMware, VMware Virtual S) Drive /dev/sdc (1020 anahi mhara 
[E Free L 
[1024 me 24 me Mount Point |/boot x i2 
New Edit Delete Reset New | E File System Type: | ext3 |v| | LVM 
Mount Point DER Drive: sda e| y 
Device RAlD/Vdume| pe |Fomat evice Vide us 
Y HarDnves | Start Cylinder, |1 
V Jdev/sda © [dev/sda a IF d 
Free Free space 194 113 Free L 131 
© dev/sdb © Jdev/sdb C Force to be a primary partition - 
Free Free space 104 1 131 | Free 131 
3 Cancel 9 | 
© Jdev/sde © jdev|sdc. E La 
Free Free space 104 1131 Free Tree space adu r 131 
"V ldev/sdd Y Jdev/sdd 
Free Free space 1024 113 图 Free Free space 104 1131 f 
[ Hide RAID device/LVM Volume Group members [ Hide RAID device/LVM Volume Group members 
4 ma] [5 ne 4 Ba] [P n 


[525 只 别 到 的 磁盘 列表 [526 创建 /boot 分 


4] 在 创建 /boot 分 区 之 后 , 将 sda 磁盘 剩余 的 分 区 以 及 所 有 剩余 的 物理 磁盘 , 均 配 置 
为 software RAID 类 型 ， 如 图 5.27 所 示 。 

5] 在 将 所 有 磁盘 都 配置 成 software RAID 类 型 之 后 ， 单 击 Next 按钮 ， 会 打开 RAID 
Options 对 话 框 询问 想 要 进行 什么 样 的 操作 ， 如 图 5.28 所 示 。 


Software RAID allows you to combine several disks inoa — | 


larcer RAID device. A RAID device can be configured to 5 
Drive dev/sda (1020 MB) (Model: VMware, VMware Virtual S) D ed ed Gi 
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File System Type: | exti 一 E f 
New Edt cu Ed (aD [ iwm 
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LLL Stat Cylinder: H O Clone a diive to create a RAID device [default=/dev/md0]. 
© Hard Drives swap 
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C] Hide RAID device/LVM Volume Group members | 局 Hide RAID device/LVM Volume Group members 
本 Bak D Nec d Bak > Nec 


B2 配置 磁盘 类 型 图 5.28_ 设 置 为 RAID 设备 

选中 Create a RAID device [default=/dev/md0] 单 选 按 钮 后 单 击 OK 按钮 ， 系 统 弹出 
Make RAID Device 对 话 框 。 在 对 话 框 的 RAID Device 下 拉 列 表 框 中 ， 可 以 选择 相应 的 RAID 
组 在 操作 系统 中 对 应 的 设备 名 。 在 RAID Level 下 拉 列 表 框 中 ， 可 以 选择 需要 配置 的 RAID 
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类 型 。 在 RAID Members 列表 框 中 ， 可 以 选择 RAID 组 中 包含 的 物理 磁盘 。 用 相同 的 方法 可 
以 做 多 个 不 同类 型 的 RAID 组 ， 如 图 5.29 所 示 。 


Drive dev/sda(1020MB)(Model VMware, VMware VitualS) — 
——O-€Ax"" — 
加 


RAID Device: | mdo 


RAID Level: RAIDO 


Bs wue — p 


sdbl 100MB 


BAID Members: 
回 sdcl 10MB | 
i e h I 1|] 
Number of spares: [0 S3 2 130 
R canca || Yok 
ko 11» 
VC fdevisde 
dvsdcl solware RAID az ri» 
可 四 
口 HideRAID device/LVM Volume Group members 
52» 创建 对 应 的 Mount 点 


> 软件 RAID 程序 无 法 将 安装 有 操作 系统 的 那个 磁盘 分 区 做 成 RAID 模式 。 因 为 
HRAID 程序 是 运行 在 操作 系统 之 上 的 ， 所 以 在 启动 操作 系统 之 前 ， 是 无 法 实现 
RAID 功能 的 。 也 就 是 说 ， 如 果 操 作 系 统 损坏 了 ，RAID 程序 也 就 无 法 运行 ， 磁 
盘 上 的 数据 就 成 了 一 堆 无 用 的 东西 。 因 为 RAD 磁盘 上 的 数据 只 有 实现 相应 
RAID 算法 的 程序 才能 识别 并 且 正确 读 写 。 如 果 没 有 相应 的 RAID 程序 ， 则 物 
理 磁 盘 上 的 数据 仅仅 是 一 些 碎片 而 已 ， 只 有 RAID 程序 才能 组 合 这 些 碎 片 。 幸 
好 ， 目 前 大 多 数 的 RAID 程序 都 会 在 磁盘 上 存储 自己 的 算法 信息 ， 一 旦 操作 系 
统 出 现 了 问题 ， 或 者 主机 硬件 出 现 了 问题 ， 就 可 以 将 这 些 磁 盘 连 接 到 其 他 机 器 
上 ,再 安装 相同 的 RAID 软件 .RAID 软件 读 取 了 存储 在 硬盘 上 固定 区 域 的 RAID 
信息 后 ， 便 可 以 继续 使 用 。 


软件 RAID 的 缺点 如 此 之 多 ， 使 人 们 不 断 地 思考 更 多 实现 RAID 的 方法 。 既 然 软件 缺点 
太 多 ， 那 么 用 硬件 实现 如 何 呢 ? 

RAID 卡 就 是 一 种 利用 独立 硬件 来 实现 RAID 功能 的 方法 。 要 在 硬件 上 实现 RAID 功能 ， 
必须 找 一 个 物理 硬件 作为 载体 , SCSI 卡 或 者 主板 上 的 南 桥 无 疑 就 是 这 个 载体 了 。 人 们 在 SCSI 
卡 上 增加 了 额外 的 芯片 用 于 实现 RAID 功能 。 这 些 芯 片 是 专门 用 来 执行 RAID 算法 的 ， 可 以 
是 ASIC 这 样 的 高 成 本 高 速度 运算 芯片 ， 也 可 以 是 通用 指令 CPU 这 样 的 通用 代码 执行 芯片 ， 
可 以 从 ROM 中 加 载 代 码 直 接 执行 ， 也 可 以 先 载 入 RAM 后 执行 ， 从 而 实现 RAD 功能 。 
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实现 了 RAID 功能 的 板 卡 (SCSI 卡 或 者 IDE 扩展 卡 ] 就 叫做 RAID 卡 。 同 样 ， 在 主板 南 桥 
芯片 上 也 可 实现 RAD 功能 。 由 于 南 桥 中 的 芯片 不 能 靠 CPU 来 完成 它们 的 功能 ， 所 以 这 些 
芯片 完全 靠 电路 逻辑 来 自己 运算 ， 尽 管 速 度 很 快 ， 但 是 功能 相对 插 卡 式 的 RAD 卡 要 弱 。 从 
某 些 主板 的 宣传 广告 中 就 可 以 看 到 ， 如 所 谓 “ 板 载 ”RAID 芯片 就 是 指南 桥 中 有 实现 RAID 
功能 的 芯片 。 

这 样 ， 操 作 系统 不 需要 作 任 何 改动 , 除了 RAID 卡 驱 动 程序 之 外 不 用 安装 任何 额外 的 软 
件 ， 就 可 以 直接 识别 到 已 经 过 RAD 处 理 而 生成 的 虚拟 磁盘 。 

对 于 软件 RAID， 至 少 操作 系统 最 底层 还 是 能 感知 到 实际 物理 磁盘 的 ， 但 是 对 于 硬件 
RAID 来 说 ， 操 作 系统 根本 无 法 感知 底层 的 物理 磁盘 ， 而 只 能 通过 厂家 提供 的 RAID 卡 的 管 
理 软件 来 查看 卡 上 所 连接 的 物理 磁盘 。 而且， 配置 RAID 卡 的 时 候 ， 也 不 能 在 操作 系统 下 完 
成 ， 而 必须 进入 这 个 硬件 来 完成 (或 者 在 操作 系统 下 通过 RAD 卡 配 置 工具 来 设置 )。 一 般 的 
RAID 卡 都 是 在 开机 自 检 的 时 候 ， 进 入 它 的 ROM 配置 程序 来 配置 各 种 RAID 功能 。 

RAID 卡 克服 了 软件 RAID 的 缺点 ， 使 操作 系统 本 身 可 以 安装 在 RAD 虚拟 磁盘 之 上 ， 
而 这 是 软件 RAID 所 做 不 到 的 。 

1. RAID 卡 的 结构 

带 CPU 的 RAID 卡 伍 然 就 是 一 个 小 的 计算 机 系统 ， 有 自己 的 CPU、 内 存 、ROM、 总 线 
和 10 接口 ， 只 不 过 这 个 小 计算 机 是 为 大 计算 机 服务 的 。 


图 5.30 为 一 个 RAID 卡 的 架构 示意 图 。 
南 
桥 
1E Poli 
des 
PCI: TT [ROM 
RAM 
ISCSI 控 制 器 
z w kd Ld - L4 Ld | 
cis £ 瘦 夺 日 三 归 三 日 
6 5 4 3 2 T 
CS SCSIAA T 
5.30 RAID 卡 结构 示意 图 
SCSI RAID 卡 上 一 定 要 包含 SCSI 控制 器 ， 因 为 其 后 端 连接 的 依然 是 SCSI 物理 磁盘 。 其 


前 端 连接 到 主机 的 PCI 总 线 上 ， 所 以 一 定 要 有 一 个 PCI 总 线 控制 器 来 维护 PCI 总 线 的 仲裁 、 
数据 发 送 接收 等 功能 。 还 需要 有 一 个 ROM， 一 般 都 是 用 Flash 芯片 作为 ROM， 其 中 存放 着 
初始 化 RAID 卡 必须 的 代码 以 及 实现 RAID 功能 所 需 的 代码 。 

RAM 的 作用 ， 首 先是 作为 数据 缓存 ， 提 高 性 能 ; 其 次 作为 RAID 卡 上 的 CPU 执行 RAID 
运算 所 需要 的 内 存 空间 。XOR 芯片 是 专门 用 来 做 RAID3. 5. 6 等 这 类 校 验 型 RAID 的 校 验 
数据 计算 用 的 。 如 果 让 CPU 来 做 校 验 计算 ， 需 要 执行 代码 ， 将 耗费 很 多 周期 。 而 如 果 直 接 
使 用 专用 的 数字 电路 ， 一 进 一 出 就 立即 得 到 结果 。 所 以 为 了 解脱 CPU， 增 加 了 这 块 专门 
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于 XOR 运算 的 电路 模块 ， 大 大 增加 了 数据 校 验 计算 的 速度 。 

RAID 卡 与 SCSI 卡 的 区 别 就 在 于 RAID 功能 ， 其 他 没有 太 大 区 别 。 如 果 RAD REFS 
个 scsi 通道 ， 那 么 就 称 为 多 通道 RAID F. HAY SCSI RAID 卡 最 高 有 4 通道 的 ， 其 后 端 可 
以 接 入 4 条 SCSI 总 线 ， 所 以 最 多 可 连接 64 个 SCSI 设备 (16 位 总 线 )。 

增加 了 RAID 功能 之 后 ，SCSI 控制 器 就 成 了 RAID 程序 代码 的 倪 人 备 ，RAID 让 它 干什么 ， 
它 就 干什么 。SCSI 控制 器 对 它 下 面 掌 管 的 磁盘 情况 完全 明了 , 它 和 RAID 程序 代码 之 间 进 行 
通信 。RAID 程序 代码 知道 SCSI 控制 器 掌管 的 磁盘 情况 之 后 , 就 按照 ROM 中 所 设置 的 选项 ， 
比如 RAID 类 型 、 条 带 大 小 等 ， 对 RAID 程序 代码 做 相应 的 调整 ,操控 它 的 倪 价 SCSI 控制 器 
向 主机 报告 “虚拟 ”的 逻辑 盘 ， 而 不 是 所 有 物理 磁盘 了 。 


a RAID 思想 中 有 个 条 带 化 的 概念 。 所 谓 的 条 带 化 ， 并 不 是 真正 的 像 低级 格式 化 
示 | 一样 将 磁盘 划分 成 条 和 带 。 这 个 条 带 化 完全 就 是 在 “心中 ”， 也 就 是 体现 在 程 
me 序 代 码 上 。 因 为 条 带 的 位 置 、 大 小 一 旦 设置 之 后 ， 就 是 固定 的 。 一 个 虚拟 盘 上 
的 某 个 LBA 地 址 块 ， 就 对 应 了 真正 物理 磁盘 上 的 一 个 或 者 多 个 LBA 块 ， 这 些 
映射 关系 都 是 预先 通过 配置 界面 设 定好 的 。 而 且 某 种 RAID 算法 往往 体现 为 一 

些 复杂 公式 ， 而 不 是 去 用 一 张 表 来 记录 每 个 虚拟 磁盘 LBA 和 物理 磁盘 LBA 的 
对 应 ， 这 样 效率 会 很 差 。 因 为 每 个 IO 到 来 之 后 ，RAID 都 要 查询 这 个 表 来 获取 

对 应 物理 磁盘 的 LBA， 而 查询 速度 是 非常 慢 的 ， 更 何况 面 对 如 此 大 的 一 张 表 。 

如 果 用 一 个 逻辑 LBA 与 物理 LBA 之 间 的 函数 关系 公式 来 做 运算 ， 则 速度 是 非 


正 是 因为 映射 完全 通过 公式 来 进行 ， 所 以 物理 磁盘 上 根本 不 用 写 入 什么 标志 ， 以 标注 
所 谓 的 条 带 。 条 带 的 概念 只 是 逻辑 上 的 ， 物 理 上 并 不 存在 。 所 以 ， 条 带 等 概念 只 需 “ 记 忆 ” 
在 RAID 程序 代码 之 中 就 可 以 了 , 要 改变 也 是 改变 程序 代码 即 可 。 惟 一 要 向 磁盘 上 写 入 的 就 
是 一 些 RAID 信息 ， 这 样 即使 将 这 些 磁 盘 拿 下 来 ， 放 到 同型 号 的 另 一 块 RAID 卡 上 ， 也 能 无 
误 地 认 出 以 前 做 好 的 RAID 信息 。SNIA 协会 定义 了 一 种 DDF RAID 信息 标准 格式 , 要 求 所 有 
RAID 卡 厂家 都 按照 这 个 标准 来 存放 RAID 人 信息， 这样， 所 有 RAID 卡 就 都 通用 了 。 

条 带 化 之 后 ，RAID 程序 代码 就 操控 SCSI 控制 器 向 OS 层 驱动 程序 代码 提交 一 个 虚拟 化 
之 后 的 所 谓 “ 虚 拟 盘 ” 或 者 “ 轩 辑 盘 ”， 也 有 人 干脆 称 为 LUN。 
2. RAID 卡 的 初始 化 和 配置 过 程 
所 谓 初始 化 就 是 说 在 系统 加 电 之 后 ，CPU 执行 系统 总 线 特 定 地 址 上 的 第 一 句 指令 ， 
个 地 址 便 是 主板 BIOS 芯片 的 地 址 。BIOS 芯片 中 包含 着 让 CPU 执行 的 第 一 条 指令 ，CPU K 
逐条 执行 这 些 指 令 ， 执 行 到 一 定 阶 段 的 时 候 ， 有 一 条 指令 会 让 CPU 寻 址 总 线 上 其 他 设备 
ROM 地 址 (如 果 有 )。 也 就 是 说 ， 系 统 加 电 之 后 ，CPU 总 会 执行 SCSI 卡 这 个 设备 上 ROM H 
的 程序 代码 来 初始 化 这 块 卡 。 初 始 化 的 内 容 包 括 检测 卡 型 号 、 生 产 商 以 及 扫描 卡 上 的 所 有 
SCSI 总 线 以 找 出 每 个 设备 并 显示 在 显示 器 上 。 在 初始 化 的 过 程 中 ， 可 以 像 进入 主板 BIOS 
FÉ, HA SCSI 卡 自 身 的 BIOS 中 进行 设置 ， 设 置 内 容 包括 查看 各 个 连接 到 SCSI 总 线 上 的 设 
备 的 容量 、 生 产 商 、 状 态 、SCSIID 和 LUN ID 等 。 


be 
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3. 0 通道 RAID # 

0 通道 RAID 卡 又 称 为 RAID 子 卡 ，0 通道 的 意思 是 说 这 块 卡 的 后 端 没 有 SCSI 通道 。 将 
这 块 子 卡 插入 主机 的 PCI 插 槽 之 后 , 它 就 可 以 利用 主板 上 已 经 集成 的 或 者 已 经 插 在 PCI 上 的 
SCSI E, 来 操控 它们 的 通道 ， 从 而 实现 RAD. XA 0 通道 子 卡 , 也 是 插 到 PCL 上 的 一 块 卡 ， 
只 不 过 它 需 要 利用 主板 上 为 0 通道 子 卡 专门 设计 的 逻辑 电路 ， 对 外 和 SCSI 控制 器 组 成 一 块 
RAID 卡 来 用 ， 只 不 过 这 块 卡 在 物理 上 被 分 割 到 了 两 个 PCI 插 槽 中 而 已 。 
图 5.31 展示 了 0 通道 RAID 子 卡 的 架构 。 在 主板 的 一 个 特定 PCI 插 槽 上 ， 有 一 个 ICR 
过 辑 电 路 ， 用 来 截获 CPU 发 送 的 地 址 信号 和 发 给 CPU 的 中 断 信 号 。CPU 发 送 到 这 里 原本 
来 操控 SCSI 控制 器 的 地 址 信号 ， 现 在 全 部 被 这 个 ICR 电路 重 定向 到 了 RAD 子 卡 处 ， 包 括 
主板 BIOS 初始 载 入 ROM， 也 不 是 载 入 SCSI 卡 的 ROM 了 ， 而 是 载 入 了 RAID 子 卡 的 ROM. 
RAID 卡 完全 接替 了 SCSI 卡 来 面 对 主 机 系统 。RAID 卡 和 SCSI 控制 器 的 通信 , 包括 地 址 信息 
和 数据 信息 , 需要 占用 PCI 总 线 , 这 造成 一 定 的 性 能 损失 。RAID 子 卡 和 SCSI 卡 之 间 的 通信 ， 
不 会 被 ICR 电路 重 定向 。 


园 5.31 0 通道 RAID 卡 示意 图 


4. RAID On Chip 技术 

ROC 技术 是 由 Adaptec 公司 推出 的 一 种 廉价 RAID 技术 ， 它 利用 SCSI 卡 上 的 CPU 处 理 
芯片 ， 通 过 在 SCSI 卡 的 ROM 中 加 入 RAID 代码 而 实现 。 

2001 íF, Adaptec 展示 了 它 的 iROC 技术 ， 在 2003 年 这 一 技术 以 HOStRAID 的 形象 推 
出 。iROC 也 就 是 RAID on CHIP， 实 质 上 就 是 利用 SCSI 控制 芯片 内 部 的 RISC 处 理 器 完成 一 
些 简单 的 RAID 类 型 (RAID 0、1、0+1)。 由 于 RAID 0、1 和 0+1 需要 的 运算 量 不 大 ， 利 用 
SCSI 控制 器 内 部 的 RISC 处 理 器 也 能 够 实现 ,在 ROM 代码 的 配合 下 ,通过 ROC 实现 的 RAID 
0、1 或 0+1 具备 引导 能 力 ， 并 且 可 以 支持 热 备 盘 。 

在 入 门 级 塔 式 服务 器 和 1U 高 度 的 机 架 式 服务 器 中 , 主板 上 通常 会 集成 SCSI 控制 芯片 ， 
但 不 标 配 独立 的 RAID 卡 。iROC 的 出 发 点 就 是 让 这 些 系统 具有 基本 的 硬件 数据 保护 ， 当 需 
要 更 为 复杂 的 RAID 5 时 再 购买 独立 的 RAID 卡 。iROC 的 出 现 给 低 端 服务 器 产品 的 数据 保护 
方案 增加 了 一 个 简易 的 选择 。iROC 或 HOStRAID 的 主要 缺点 是 操作 系统 兼容 性 和 性 能 差 ， 
于 没有 专门 的 RAID 计算 处 理 器 ， 因 此 使 用 这 种 配置 的 RAID 会 在 一 定 程度 上 降低 服务 器 
系统 的 性 能 , 而 且 它 只 支持 RAID 0、1、0+1, 只 能 支持 几 块 SCSI 盘 做 RAID, 相 比 IDE RAID 


=> 
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0. 1. 0+1 来 说 特性 相近 而 成 本 上 却 高 了 很 多 ， 此 外 ，HOStRAID 技术 在 低 端 还 必然 要 面 对 
更 新 、 性 能 更 好 的 S-ATA RAID 的 竞争 。 


5. RAID 卡 上 的 内 存 


RAID 卡 上 的 内 存 ， 有 数据 缓存 和 代码 执行 内 存 两 种 作 
RAID 卡 上 的 CPU 执行 代码 ， 当 然 需要 RAM 的 参与 了 。 如 果 直接 从 ROM 中 读 取 代码 ， 
速度 会 受到 很 大 影响 o HELA RAID 卡 的 RAM 中 有 固定 的 地 址 段 用 于 存放 CPU 执行 的 代码 。 
而 大 部 分 空间 都 是 用 作 了 下 文 介绍 的 数据 缓存 。 
缓存 ， Más 缓冲 内 存 ， 只 要 在 通信 的 双方 之 间 能 起 到 缓冲 作用 就 可 以 了 。 我 们 知道 
CPU 和 内 存 之 间 是 L2 Cache, 它 比 内 存 RAM 速度 还 要 高 , 但 是 没有 CPU 速度 高 。 同样 RAID 
控制 器 和 磁盘 通道 控制 器 之 间 也 要 有 一 个 缓存 来 适 配 , 因为 RAD 控制 器 的 处 理 速度 远 远 快 
于 通道 控制 器 收集 其 通道 上 所 连接 的 磁盘 传 出 的 数据 速度 。 这 个 缓存 没有 必要 用 L2 Cache 
那样 高 速 的 电路 ， 而 用 RAM 足 侨 。 因 为 RAM 的 速度 就 足够 适 配 二 者 了 。 
缓存 RAM 除了 适 配 不 同 速率 的 芯片 通信 之 外 , 还 有 一 个 作用 就 是 缓冲 数据 m 比如 上 
层 发 起 一 个 10 请 求 ，RAID 控制 器 可 以 先 将 这 个 请 求 放 到 缓存 中 排队 ， 然 后 一 条 一 条 地 执 
行 ， 或 者 优化 这 些 10， 能 合并 的 合并 ， 能 并 发 的 并 发 。 
6. 缓存 的 两 种 写 模式 
对 于 上 层 的 写 10，RAID 控制 器 有 两 种 手段 来 处 理 ， 内 容 如 下 。 
e  WriteBack 模式 ， 上 层 发 过 来 的 数据 ，RAID 控制 器 将 其 保存 到 缓存 中 之 后 ， 立 即 
通知 主机 I0 已 经 完成 ， 从 而 主机 可 以 不 加 等 待 地 执行 下 一 个 10， 而 此 时 数据 正在 
RAID 卡 的 缓存 中 ， 而 没有 真正 写 入 磁盘 ， 起 到 了 一 个 缓冲 作用 。RAID 控制 器 等 
待 空 闲 时 ， 或 者 一 条 一 条 地 写 入 磁盘 ， 或 者 批量 写 入 磁盘 ， 或 者 对 这 些 10 进行 排 
队 ( 类 似 磁 盘 上 的 队列 技术 ) 等 一 些 优化 算法 ， 以 便 高 效 写 入 磁盘 。 由 于 写 盘 速度 比 
较 慢 ， 所 以 这 种 情况 下 RAID 控制 器 欺骗 了 主机 ,但 是 获得 了 高 速度 ， 这 就 是 “把 
简单 留 给 上 层 ， 把 麻烦 留 给 自己 ”。 这 样 做 有 一 个 致命 缺点 ， 就 是 一 旦 意外 掉 电 ， 
RAID 卡 上 缓存 中 的 数据 将 全 部 丢失 ， 而 此 时 主机 认为 10 已 经 完成 ， 这 样 上 下 层 
就 产生 了 不 一 致 , 后 果 将 非常 严重 。 所 以 一 些 关键 应 用 (比如 数据 库 ] 都 有 自己 的 检 
测 一 致 性 的 措施 。 也 正 因为 如 此 ， 中 高 端的 RAID 卡 都 需要 用 电池 来 保护 缓存 ， 从 
而 在 意外 掉 电 的 情况 下 ， 电 池 可 以 持续 对 缓存 进行 供电 ， 保 证 数据 不 丢失 。 再 次 
加 电 的 时 候 ，RAID 卡 会 首先 将 缓存 中 的 未 完成 的 10 写 入 磁盘 。 
WriteThrough 模式 : Write Through 模式 ， 也 就 是 写 透 模式 ， 即 上 层 的 10。 只 有 
切切 实 实 被 RAD 控制 器 写 入 磁盘 之 后 ， 才 会 通知 主机 I0 完成 ， 这 样 做 保证 了 高 
可 靠 性 。 此 时 ， 缓 存 的 提速 作用 就 没有 优势 了 ， 但 是 其 缓冲 作用 依然 有 效 。 
除了 作为 写 缓存 之 外 ， 读 缓存 也 是 非常 重要 的 。 缓 存 算 法 是 门 很 复杂 的 学 问 ， 有 一 套 
复杂 的 机 制 ， 其 中 一 种 算法 叫做 PreFetch， 即 预 取 ， 也 就 是 对 磁盘 上 接 下 来 “有 可 能 ”被 
主机 访问 到 的 数据 ， 在 主机 还 没有 发 出 读 10 请 求 的 时 候 ， 就 “擅自 ” 先 读 入 到 缓存 。 这 个 
“有 可 能 ”是 怎么 来 算 的 呢 ? 
其 实 就 是 认为 主机 下 一 次 10， 有 很 大 几率 会 读 取 到 这 一 次 所 读 取 的 数据 所 在 磁盘 位 置 
相 邻 位 置 的 数据 。 这 个 假设 ， 对 于 连续 10 顺序 读 取 情 况 非 常 适用 ， 比 如 读 取 逻 辑 上 连续 存 
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放 的 数据 ， 这 种 应 用 如 FTP 大 文件 传输 服务 、 视 频 点 播 服务 等 ， 都 是 读 大 文件 的 
如 果 很 多 碎 小 文件 也 是 被 连续 存放 在 磁盘 上 相 邻 位 置 的， 缓存 会 大 大 提升 性 能 ， 
小 文件 需要 的 IOPS 很 高 ， 如 果 没 有 缓存 ， 全 靠 磁头 寻 道 来 完成 每 次 10， 耗 费时 
长 的 。 
还 有 一 种 缓存 算法 ， 它 的 思想 不 是 预 取 了 ， 它 是 假设 : 主机 下 一 次 10， 可 能 还 会 读 取 
上 一 次 或 者 上 几 次 (最 近 ]) 读 取 过 的 数据 。 这 种 假设 和 预 取 完 全 不 一 样 了 ，RAID 控制 器 读 取 
出 一 段 数据 到 缓存 之 后 ， 如 果 这 些 数据 被 主机 的 写 10 更 改 了 ， 控 制 器 不 会 立即 将 它们 写 入 
磁盘 保存 ， 而 是 继续 留 在 缓存 中 ， 因 为 它 假设 主机 最 近 可 能 还 要 读 取 这 些 数 据 ， 既 然 假 设 
这 样 ， 那 么 就 没有 必要 写 入 磁盘 并 删除 缓存 ， 然 后 等 主机 读 取 的 时 候 ， 再 从 磁盘 读 出 来 到 
缓存 ， 还 不 如 以 静 制 动 ， 干 脆 就 留 在 缓存 中 ， 等 主机 “折腾 ”的 频率 不 高 了 ， 再 写 入 磁盘 。 


。 而 
为 读 取 
是 比较 


= HE 


中 高 端的 RAID 卡 一 般 具有 256MB 的 RAM 作为 缓存 。 


7. RAID 配置 完 后 的 初始 化 过 程 

对 于 校 验 型 RAID, E RAID 卡 上 设置 完 RAID 参数 并 且 应 用 RAID 设置 之 后 ，RAID pE 
列 中 的 所 有 磁盘 需要 进行 一 个 初始 化 过 程 ， 所 需要 的 时 间 与 磁盘 数量 、 大 小 有 关 。 磁 盘 越 
大 ， 数 量 越 多 ， 需 要 的 时 间 就 越 长 。 


|RAID 卡 都 向 磁盘 上 写 了 什么 东西 呢 ? 大 家 可 以 想 一 下 ， 一 块 刚刚 出 厂 的 新 磁 
盘 ， 上 面 有 没有 数据 ? 


有 。 有 具体 什么 数据 呢 ? 要 么 全 是 0， 要 么 全 是 1。 这 里 所 说 的 全 0 是 指 实际 数据 部 分 ， 
扇 区 头 标 等 一 些 特殊 位 置 除外 。 因 为 磁盘 上 的 磁性 区 域 就 有 两 种 状态 ， 不 是 N 极 ， 就 是 S 
极 。 那 么 也 就 是 说 不 是 0 就 是 1， 而 不 可 能 有 第 三 种 状态 。 那 么 这 些 0 或 者 1， 算 不 算数 据 
Wi? 当然 要 算 了 。 如 果 此 时 用 几 块 磁盘 做 了 RAID 5， 但 磁盘 上 任何 数据 都 不 做 改动 ， 我 们 
看 一 下 此 时 会 处 于 一 种 什么 状态 ， 比 如 5 块 磁盘 ，4 块 数据 盘 空 间 ，1 块 校 验 盘 空间 ， 同 一 
个 条 带 上 ，4 块 数据 块 ， 一 块 校 验 块 ， 所 有 块 上 的 数据 都 是 全 0， 那 么 此 时 如 果 按 照 RAID 5 
来 算 ， 是 正确 的 ， 因 为 0xor0xor0xor0xor0=0， 对 。 
如 果 一 开始 磁盘 全 是 1， 那 么 同样 地 1 xor 1 xor 1 xor 1 xor 1 = 1， 也 对 。 但 是 如 果 用 6 
块 盘 做 RAID 5， 而 且 初 始 全 为 1， 情 况 就 矛盾 了 。1xor1xor1xor1xor1xor1=0， 此 时 
正确 结果 应 该 是 校 验 块 为 0， 但 是 初始 磁盘 全 部 为 1， 校 验 块 的 数据 也 为 1， 这 就 和 计算 结 
果 相 矛盾 了 。 

如 果 初 始 化 过 程 不 对 磁盘 数据 进行 任何 更 改 ， 直 接 拿 来 写 数据 ， 比 如 此 时 就 向 第 二 个 
extend 上 写 了 一 块 数据 ,将 1 变 为 0, 然 后 控制 器 根据 公式 :新 数据 的 校 验 数据 =( 老 数据 EOR 
新 数据 ) EOR 来 校 验 数据 。(1 eor 0) eor 1 = 0, 新 校 验 数据 为 0, 所 以 最 终 数 据 变 成 了 这 样 : 
1 xor 0 xor 1 xor 1 xor 1 xor 1。 我 们 算出 它 的 正确 数据 应 该 等 于 1， 而 由 RAID 控制 器 算 的 
却 成 了 0， 所 以 就 矛盾 了 。 

为 什么 会 犯 这 个 错误 呢 ? 那 是 因为 一 开始 RAID 控制 器 就 没有 从 一 个 正确 的 数据 关系 
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始 算 ， 校 验 块 的 校 验 数据 一 开始 就 与 数据 块 不 一 致 ， 导 致 越 算 越 错 。 所 以 RAID 控制 器 在 
做 完 设 置 ， 并 启用 之 后 ,在 初始 化 的 过 程 中 需要 将 磁盘 每 个 扇 区 都 写成 0 或 者 1， 然 后 计算 
出 正确 的 校 验 位 ， 或 者 不 更 改 数据 块 的 数据 ， 直 接 用 这 些 已 经 存在 的 数据 ， 重 新 计算 所 有 
条 带 的 校 验 块 数据 。 在 这 个 基础 上 ， 新 到 来 的 数据 才 不 会 被 以 论 传 论 。 


像 NetApp 等 产品 ， 其 RAID 组 做 好 之 后 不 需要 初始 化 ， 立 即 可 用 。 甚 至 向 已 
经 有 数据 的 RAID 组 中 添加 磁盘 ， 也 不 会 造成 任何 额外 的 IO。 因 为 其 会 将 所 有 
Spare 磁盘 清 零 ， 也 就 是 向 磁盘 发 送 一 个 Zero Unit 的 SCSI 指令 ， 磁 盘 会 自动 
执行 清 零 。 用 这 些 磁 盘 做 的 RAID 组 ， 不 需要 校 验 纠正 ， 所 以 也 不 需要 初始 化 
过 程 ， 或 者 说 初始 化 过 程 就 是 等 待 磁盘 清 零 的 过 程 。 


8. 几 款 RAID 卡 介 绍 


1) Mylex AcceleRAID 352 
双 通 道 160M 部 门 级 ， 性 能 强悍 ， BIOS 选项 极为 人 性 化 ， 在 BIOS 内 可 以 检测 SCSI 

硬盘 的 出 厂 坏 道 及 成 长 坏 道 ， 而 不 需 借助 软件 。 并 且 人 允许 手动 打开 /关闭 硬盘 设备 自身 的 

Read cache/Write cache。 还 带 有 电池 。 
详细 信息 如 下 。 

支持 RAID 级 别 : RAIDO, 1, 0+1, 3. 5, 10, 30, 50, JBOD. 

处 理 芯 片 : Intel i960RN. 

型 ，PCI 64bit 兼容 32bit。 

: Ultra 160 SCSI. 

数据 传输 速率 : 最 高 160MB/s. 

接 设 备 数 : 最 多 30 个 SCSI 外 设 。 

内 部 接口 ， 双 68 针 高 密 。 

外 部 接口 : 双 68 针 超 高 密 。 

适用 的 操作 系统 : Windows NT 4.0: Windows 2K; NetWare 42. 5.1: SCO 
OpenServer 5.05, 5.0.6; SCO UnixWare 7.1; DOS 6.x and above; Solaris 7 (x86); 
Linux 2.2 kernel distributions. 

e 包括 软件 ， 有 Storager Manager. Storager Manager Pro 和 CLI( 命 令 分 界面 )。 

e 主要 RAID 特性 : 在 线 扩容 、 瞬 时 阵列 可 用 性 (后 台 初始 化 )、 支 持 S.M.AFCT, LH 
SES/SAF-TE. 

图 5.32 和 图 5.33 为 Mylex AcceleRAID 352 卡 实物 图 。 
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图 5.32 Mylex AcceleRAID 352 卡 (1) 
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B 5.33 Mylex AcceleRAID 352 卡 (2) 


2) LSI MegaRAID Enterprise 1600(AMI 471) 

4 通道 160M 企业 /部 门 级 ，160M 最 为 顶级 豪华 的 SCSI RAID， 强 大 的 BIOS 选项 (LSI 
独 有 的 Web BIOS)。 卡 上 系统 缓存 可 详细 调节 ( 除 大 部 分 SCSI RAID 可 以 调节 的 主要 功能 
Write back( 回 写 ) 外 ， 增 加 Read ahead( 预 读 ])，Cache 1/0 等 可 调 选 项 ， 满 足 RAID 的 用 途 需 
要 ， 体 现 各 种 RAID 的 最 高 性 能 ， 带 电池 。 

详细 信息 如 下 。 
支持 RAID 级 别 : RAIDO, 1. 0+1, 3. 5. 10. 30, 50, JBOD. 


处 理 世 片 : Intel i960RN 。 

插 槽 类 型 ， PCIL 64bit、 兼 容 32bit。 
T. 66MHz. 
F: 64bit. 


外 置 接口 ， Ultra 160 SCSI. 

数据 传输 率 ，160MB/s。 

最 多 连接 设备 ，32。 

内 部 接口 ， 双 68 针 高密 

外 部 接口 : 四 68 针 超 高 密 。 

系统 平台 : Windows95/98/Me/4.0/2000/XP, Linux(Red Hat, SuSE, Turbo, Caldera 
和 FreeBSD). 

图 5.34 为 LSI MegaRAID Enterprise 1600 卡 实物 图 。 

可 以 看 到 RAID 卡 使 用 的 内 存 就 是 台式 机 的 SDRAM 内 存 , 有 些 使 用 DDR SDRAM 内 存 。 


B 5.34 LSI MegaRAID Enterprise 1600 4 
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9. 用 Rocket RAID 卡 做 各 种 RAID 
在 一 张 Rocket RAID 卡 上 ， 安 装 了 8 块 IDE 磁盘 。 开 机 之 后 ， 在 启动 界面 按照 相应 提 
IA RAID 卡 的 设置 界面 ， 如 图 5.35 所 示 。 


Array Nane 


Mode 
DOR BOOT 
A7100 


六 


ATA/133 


[ESC]:Quit 


图 5.35 磁盘 列表 
可 以 看 到 ， 这 8 块 硬盘 有 着 不 同 的 品牌 、 容 量 以 及 参数 ， 但 它们 都 是 IDE 接口 的 ATA 
硬盘 。 
1) RAID 0 组 创建 过 程 
RAID 0 组 创建 过 程 如 下 
1] 选择 RAIDO; Striping， 如 图 5.36 所 示 。 
2] 给 新 RAID 0 组 起 名 为 “RAID 0”， 如 图 5.37 所 示 。 
3] ZE Select Devices 菜单 下 ,选择 RAID 0 组 所 包含 的 磁盘 ,如 图 5.38 和 图 5.39 所 示 。 
4] 接 下 来 ,在 Block Size 菜单 下 可 以 为 这 个 RAID 0 组 选择 条 块 大 小 , 如 图 5.40 所 示 。 
至 于 Block Size 参数 是 指 整 个 条 带 的 大 小 ,还 是 指 条 带 Segment 的 大 小 ,要 看 厂家 
自己 的 定义 。 


[15.36 选择 RAID 0 模式 B 5.37 起 名 “RAID 0” 


[]538 ”选择 磁盘 (1) Ble39 选择 磁盘 (2) 
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B 5.40 i& & Block Size 
5] 选择 Start Creation， 确 定 创建 RAID 组 ， 如 图 5.41 所 示 。 
61 创建 完毕 后 ， 主 界面 中 即 显示 出 RAID 信息 ， 如 图 5.42 所 示 。 


图 5.41_ 开 始 创建 RAID 组 图 5.42_RAID 组 的 信息 
接 下 来 我 们 继续 用 以 上 方法 创建 其 他 类 型 的 RAID 组 。 
2) RAID1 组 的 创建 过 程 
图 5.43 所 示 是 RAID 1 组 的 创建 过 程 , 可 以 发 现 Start Creation 中 有 一 个 Duplication 选 
项 ,这 个 选项 的 作用 是 将 源 盘 数据 复制 到 镜像 盘 , 而 不 破坏 源 盘 数 据 。 如 果 选 择 了 Create Only, 
则 会 破坏 源 盘 的 数据 ， 重 新 创建 干净 的 RAID 1 组 。 


B 5.43 创建 RAID 1 组 


3) 创建 一 个 3 块 盘 组 成 的 RAID 5 组 


下 在 Start Creation 菜单 中 有 两 个 选项 ， 一 个 为 Zero Build， 另 一 个 为 No Build, 
如 图 5.44 所 示 。Zero Build 指 将 所 有 数据 作废 ， 从 零 开 始 生 成 数据 的 校 验 值 。 
No Build 指 不 计算 数据 校 验 值 ， 如 果 用 户 能 保证 RAID 5 组 中 的 磁盘 原来 是 处 
于 一 致 性 状态 的 ， 则 可 以 用 这 个 选项 来 节约 时 间 ， 否 则 不 要 选择 这 个 选项 。 
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DEM No Build T ES 显示 警告 信息 ， 如 图 5.45 所 示 。 


图 5.44 两 个 选项 

按 Y 键 即 可 完成 RAID 5 组 的 创建 。 
至 此 ， 我 们 创建 了 RAIDO, RAID 1 和 RAID 5 三 个 RAID 组 ， 如 图 5.46 所 示 。 

4) 删除 RAID 组 

如 果 对 创建 的 RAID 组 不 满意 ， 可 以 删除 重建 ， 有 具体 操作 如 图 5.47 和 图 5.48 所 示 。 


VT YN H TTI) De eto RE ITTRI EASTER TTE 


加 5.46 三 个 RAID 组 的 信息 B547 删除 RAID 组 
5) 添加 全 局 热 备 磁盘 
此 外 ， 还 可 以 添加 全 局 热 备 磁盘 。 切 换 到 Add/Remove Spare 菜单 ， e 5.49 所 示 。 


图 5.48 ”确认 信息 
由 于 当前 系统 中 只 有 一 块 空闲 磁盘 ， 所 以 我 们 就 将 这 块 磁盘 作为 全 局 热 备 磁盘 ， 操 作 


如 图 5.50 和 图 5.51 所 示 。 如 果 任 何 RAID 组 中 有 磁盘 损坏 的 话 ，RAID 卡 将 利用 这 块 热 备 
磁盘 来 项 殖 损坏 的 磁盘 ， 将 数据 重新 同步 到 这 块 磁盘 上 。 

6) 设置 启动 标志 

由 于 系统 要 从 安装 有 操作 系统 的 磁盘 上 启动 , 所 以 必须 让 RAD 卡 知道 哪个 逻辑 磁盘 是 
启动 磁盘 。 具 体 设置 如 图 5.52、 图 5.53 和 图 5.54 所 示 。 

在 将 RAID 1 组 形成 的 逻辑 磁盘 作为 启动 磁盘 后 ， 可 以 看 见 右边 的 “BOOT” 标 志 。 
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Create? le lete? 


图 5.52 设置 启动 盘 (1) 图 5.53 ”设置 启动 盘 (2) 


ATA/1DE 
ATA/19G 
ATA/133 BOOT 
ThZIBB 
fIn 100 
ATA/190 Spare 
ATA/133 BOOT 


[Enter ]:Select [ESCI Quit 


图 5.54_ 设 置 启 动 盘 (3) 
7) 设置 访问 各 个 磁盘 的 模式 参数 
在 Device Mode 菜单 下 , 可 以 设置 访问 各 个 磁盘 的 模式 参数 , 如 图 5.55 和 图 5.56 所 示 。 


[ESC]:Backvard ext its EnterlzSe lect LESC]: Backuard 


5 ”设置 磁盘 参数 (1) 加 |5.56 ”设置 磁盘 参数 (2) 

8) 查看 所 有 设备 

在 View 菜单 下 , 可 以 查看 所 有 设备 、 所 有 RAD 组 和 所 有 风 辑 磁盘 (由 于 这 块 卡 不 具有 
在 RAID 组 中 再 次 划分 逻辑 磁盘 的 功能 , 所 以 每 个 逻辑 组 只 能 作为 一 个 逻辑 磁盘 ), 如 图 5.57 
和 图 5.58 所 示 。 
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图 5.57 RAID 组 状态 (1) 图 5.58_RAID 组 状态 (2) 
53 磁盘 阵列 


RAID 卡 的 出 现 着 实 让 存储 领域 变 得 红火 起 来 ， 几 乎 每 台 服 务 器 都 标 配 RAD 卡 或 者 集 
成 的 RAID 芯片 。 一 直到 现在 ， 虽 然 磁盘 阵列 技术 高 度 发 展 ， 各 种 盘 阵 产品 层出不穷 ， 但 
RAID 卡 依然 是 服务 器 不 可 缺少 的 一 个 部 件 。 

然而 ，RAID 卡 所 能 接 入 的 通道 毕 竞 有限 ， 因 此 人 们 迫切 希望 创造 一 种 可 以 接 入 众多 磁 
盘 、 可 以 实现 RAID 功能 并 且 可 以 作为 集中 存储 的 大 规模 独立 设备 。 最 终 ， 磁 盘 阵 列 在 这 种 
需求 中 诞生 了 。 

磁盘 阵列 的 出 现 是 存储 领域 的 一 个 里 程 碑 。 关 于 磁盘 阵列 的 描述 ， 我 们 将 在 本 书 第 6 
章 中 详细 介绍 。 


5.44 ”实现 更 高 级 的 RAID 


在 7 种 RAID 形式 的 基础 上 ， 还 可 以 进行 扩展 ， 以 实现 更 高 级 的 RAID。 由 于 RAID 0 无 
疑 是 所 有 RAID 系统 中 最 快 的 ， 所 以 将 其 他 RAID 形式 与 RAID 0 杂交 ， 将 会 生成 更 多 新 奇 
的 品种 。 将 RAID 0 5j RAID 1 结合 ,生成 了 RAID 10; 将 RAID 3 与 RAID 0 结合 ,形成 RAID 30; 
将 RAID 5 与 RAID 0 结合 ， 生 成 了 RAID 50. 


5.4.1 RAID 50 


图 5.59 是 一 个 RAID 50 的 模型 ，RAID 30 与 其 类 似 。 控 制 器 接收 到 主机 发 来 的 数据 之 
后 ， 按 照 RAID 0 的 映射 关系 将 数据 分 块 ， 一 部 分 存放 于 左边 的 RAID 5 系统 ， 另 一 部 分 存 
放 在 右边 的 RAID 5 系统 。 左 边 的 RAID 5 系统 再 次 按照 RAID 5 的 映射 关系 将 这 一 部 分 数据 
存放 于 5 块 磁盘 中 的 若干 块 ， 另 一 边 也 进行 相同 的 过 程 。 


RAIDO 


RAIDS RAIDS 


[81 | P 


P ] m 
P [3 


E 5.59 RAID 50 模型 
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实际 中 ， 控 制 器 不 可 能 物理 地 进行 两 次 运算 和 写 10， 这 样 效率 很 低 。 控 制 器 可 以 将 
RAID 0 和 RAID 5 的 映射 关系 方程 组 合成 一 个 函数 关系 方程 ， 这 样 直接 代入 逻辑 盘 的 LBA， 
便 可 得 出 整个 RAID 50 系统 中 所 有 物理 磁盘 将 要 写 入 或 者 读 取 的 相应 LBA 地 址 ， 然 后 统一 
向 磁盘 发 送 指令 。 左 边 的 RAID 5 系统 和 右边 的 RAID 5 系统 分 别 允 许 损坏 一 块 磁盘 而 不 影 
响 数 据 。 但 是 如 果 在 任何 一 边 的 RAID 系统 同时 或 者 先后 损坏 了 2 块 或 者 更 多 的 盘 ， 则 整个 
系统 的 数据 将 无 法 使 用 。 


5.4.2 RAID 10 和 RAID 01 


RAID 10 和 RAID 01 看 起 来 差不多 ， 但 是 本 质 上 有 一 定 区 别 。 图 5.60 是 一 个 RAID 10 
的 模型 。 

如 果 某 时 刻 ， 左 边 的 RAID 1 系统 中 有 一 块 磁盘 损坏 ， 此 时 允许 再 次 损坏 的 磁盘 就 剩 下 
2 块 , 也 就 是 右边 的 RAID 1 系统 中 还 可 以 再 损坏 任意 一 块 磁盘 ， 而 整体 数据 仍然 是 可 用 的 。 
我 们 暂且 说 这 个 系统 的 元 余 度 变 成 了 2。 

图 5.61 是 一 个 RAID 01 的 模型 。 


RAIDO PE 
RAID1 RAID1 RARO: buo 
. 二 从 二 < 一人 一 a Yi 
镜像 
[E560 RAD 10 模型 圆 5.61_RAID 01 模型 


如 果 某 时 刻 ， 左 边 的 RAID 0 系统 中 有 一 块 磁盘 损坏 ， 此 时 左边 的 RAID 0 系统 便 没 有 
丝毫 作用 了 。 所 有 的 10 均 转 向 右边 的 RAID 0 系统 。 而 此 时 ， 仅 仅 允 许 左边 剩余 的 那 块 磁 
得 损坏 ， 如 果 右 边 任何 一 块 磁盘 损坏 ， 则 整体 数据 将 不 可 用 。 所 以 这 个 系统 的 元 余 度 变 成 
了 1， 即 只 允许 损坏 特定 的 一 块 磁盘 (左边 RAID 0 系统 剩余 的 磁盘 ] 。 

综 上 所 述 ，RAID 10 系统 要 比 RAID 01 系统 元 余 度 高 ， 安 全 性 高 。 


55 虚拟 磁盘 


话说 张 真人 送 走 了 七 星 大 侠 之 后 ， 面 对 江湖 上 的 浮躁 ， 有 苦难 言 。 这 江湖 还 能 出 一 个 
像 七 星 这 样 的 豪侠 吗 ? 难 啊 ! 七 星 北 斗 阵 ， 多 么 完美 的 一 个 阵 式 ! 七 星 老 前 辈 用 尽 毕生 心 
L GI 7 种 阵 式 ， 将 单个 磁盘 组 成 盘 阵 ， 提 高 整体 性 能 ! 可 是 很 少 有 人 能 体会 到 这 个 
阵 式 的 精髓 ， 包 括 创建 他 的 七 星 ， 都 不 一 定 。 张 真人 自从 七 星 走 后 ， 一 直 处 于 深度 悲痛 之 
中 ， 悔 恨 当初 为 什么 没有 抽 时 间 向 七 星 拜师 学 艺 ! 如 今 只 能 守 着 一 本 老 侠 留 下 来 的 《七 星 
北斗 阵 式 》 天 天 仔细 研读 ， 以 求 找到 什么 灵感 ， 来 继续 发 扬 老 侠 的 这 门 绝技 。 
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就 这 样 过 去 了 20 年 。 张 真人 已 经 由 年 轻 小 伙 变 成 了 稳重 善 思 的 中 年 人 。 他 凭借 优秀 的 
武艺 和 才华 ， 来 到 武当 山 创立 了 道观 ， 并 收 下 了 7 位 徒弟 ， 以 纪念 七 星 北斗 之 豪情 ! 张 真 
人 每 晚 休息 之 前 ， 都 要 对 着 七 星 北斗 拜 三 拜 。20 多 年 过 去 了 ,北斗 的 光芒 依然 是 那么 耀眼 ， 
依然 看 着 世间 纷争 ， 脐 夜 交替 。 

这 20 年 是 科技 飞速 发 展 的 20 年 。 铁 匠 们 的 技艺 提高 很 快 ， 新 技术 不 断 被 创造 出 来 。 
大 容量 、 高 速度 的 磁盘 在 地 挫 卖 10 文 钱 一 斤 。 

某 天 张 老道 下 山 溜达 ， 发 现 地 推 上 的 磁盘 品质 还 不 错 ， 比 20 年 前 的 货 强 太 多 了 ， 顺 手 
就 买 了 50 斤 回去 。 点 了 点 ， 是 是 50 块 。 他 让 他 的 7 位 徒弟 ， 分 别 按照 七 星 阵 摆 上 各 种 阵 
形 ， 来 捣 鼓 这 50 块 硬盘 ，7 位 徒弟 早 就 对 七 星 阵 烂 熟 于 心 ， 把 这 50 块 磁盘 捣 鼓 得 非常 顺 。 
张 老道 频频 点 头 ， 心 里 想 着 : “ 嗯 ， 应 了 那 名 话 啊 。 长 江 后 浪 推 前 浪 ， 一 代 新 人 换 旧 人 ! " 
摆弄 了 一 阵 之 后 ， 徒 弟 们 都 累 了 。 这 次 格外 地 累 ， 不 禁 都 坐 在 地 上 休息 。 老 道 把 眼 一 输 ， 
CHERRY L ! 年 轻 人 ， 不 好 好 练功 ， 不 准 偷懒 ! ”徒弟 们 上 前 道 : “师父 ， 不 是 我 们 偷 
懒 ， 这 次 您 买 的 磁盘 和 以 前 的 不 一 样 。 我 们 在 出 招 的 时 候 ， 就 是 在 “化 龙 ” 这 一 招 的 时 候 
特别 吃力 。 这 条 龙 太 大 ， 不 好 操控 。” 老 道 一 看 ， 果 然 ， 这 50 块 磁盘 每 块 足 有 1TB 大 ，50 
Hoti 50TB “EE, 20 年 前 一 块 磁盘 最 多 也 就 是 50MB， 没 想到 啊 ! ” 

这 天 晚上 ， 老 道 用 完 粗 茶 淡 饭 之 后 ， 遥 望 北斗 ， 心 想 七 星 老 侠 在 天 上 不 知道 看 见 此 情 
此 景 ， 会 给 我 什么 启示 呢 ? 20 年 前 ， 用 此 阵 式 生成 的 虚拟 磁盘 ， 大 小 也 不 过 几 G， 而 如 今 
已 经 达到 了 T 级 别 ， 也 难怪 我 那些 徒 儿 们 会 吃不消 。 怎 么 办 呢 ? 需要 把 这 以 T 论 的 虚拟 磁 
盘 再 次 划分 开 来 ， 划 分 成 多 条 “小 龙 ”， 这 样 就 可 以 灵活 操控 了 。 而 且 针对 目前 的 磁盘 超 
大 的 容量 ,完全 可 以 在 一 个 阵 中 同时 应 用 多 种 阵 式 。 比 如 让 我 7 位 徒弟 ,其 中 3 人 摆 出 RAID 0 
阵 式 ， 另 外 4 人 同时 摆 出 RAID 5 阵 式 ， 共 同 出 招 。 每 个 阵 式 生 成 的 虚拟 “ 龙 盘 ”， 把 它 划 
分 成 众多 小 的 “ 龙 盘 ”， 这 样 对 外 不 但 我 们 的 威力 没有 减少 ， 而 且 可 以 灵活 运用 ， 让 敌人 
不 知道 我 们 到 底 有 几 个 人 。 

张 老道 决定 将 大 龙 盘 划分 成 小 龙 盘 ， 这 事 十 分 好 办 ， 只 需 体现 在 “心中 ”就 可 以 了 。 
只 要 你 心中 有 数 ， 那 些 物理 磁盘 的 哪 部 分 区 域 属于 哪个 小 龙 盘 ， 就 完全 可 以 对 外 通告 了 。 
老道 称 这 种 技术 为 逻辑 盘 技 术 。 


5.5.1 RAID 组 的 再 划分 


实际 中 ,比如 用 5 100GB 的 磁盘 做 了 一 个 RAID 5, 那么 实际 数据 空间 可 以 到 400GB， 
剩余 100GB 空间 是 校 验 空间 。 如 果 将 这 400GB 虚拟 成 一 块 盘 ， 不 够 灵活 。 且 如 果 0S 不 需 
要 这 么 大 的 磁盘 ， 就 没 法 办 了 。 所 以 要 再 次 划分 这 400GB 的 空间 ， 比 如 划分 成 4 块 100GB 
的 逻辑 磁盘 。 而 这 届 辑 盘 虽 然 也 是 100GB， 但 是 并 不 同 于 物理 盘 ， 向 逻辑 盘 写 一 个 数据 会 
被 RAID 计算 ,而 有 可 能 写 向 多 块 物理 盘 ， 这 样 就 提升 了 性 能 ， 同 时 也 得 到 了 保护 。 纵 使 
RAID 组 中 坏 掉 一 块 盘 ， 操 作 系统 也 不 会 感知 到 ， 它 看 到 的 仍然 是 100GB 的 磁盘 。 


5.5.2 同一 通道 存在 多 种 类 型 的 RAID 组 
不 仅 如 此 ， 老 道 还 想到 了 在 一 个 阵 式 中 同时 使 用 多 种 阵 法 的 方式 。 
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实际 中 ， 假 设 总 线 上 连接 有 8 块 100GB 的 磁盘 ， 我 们 可 以 利用 其 中 的 5 块 磁盘 来 做 一 
个 RAID 5， 而 后 再 利用 剩余 的 3 块 磁盘 来 做 一 个 RAID 0， 这 样 ，RAID 5 的 可 用 数据 空间 为 
400GB， 校 验 空 间 为 100GB，RAID 0 的 可 用 数据 空间 为 300GB。 而 后 ，RAID 5 和 RAID 0 
各 自 的 可 用 空间 ， 又 可 以 根据 上 层 OS 的 需求 ， 再 次 划分 为 更 小 的 逻辑 磁盘 。 这 样 就 将 七 星 
北斗 阵 灵 活 地 运用 了 起 来 ， 经 过 实践 的 检验 ， 这 种 应 用 方法 得 到 了 巨大 的 推广 和 成 功 。 

张 老道 给 划分 逻辑 盘 的 方法 取 名 为 巧 化 神龙 ， 将 同一 个 阵 中 同时 使 用 多 种 阵 式 的 方法 
叫做 神龙 七 变 。 


553 BERAWA HE H S 


目前 各 种 RAID FARE ARMEE, XEAEHSEAUIMEXEUERE. EAF OS 来 说 
都 认 成 一 块 单独 的 物理 磁盘 。 这 里 不 要 和 分 区 搞 混 ， 分 区 是 OS 在 一 块 物理 磁盘 上 做 的 再 次 
划分 。 而 RAID 卡 提 供给 OS 的 ， 任 何 时候 ， 都 是 一 块 或 者 几 块 逻辑 盘 ， 也 就 是 OS 认 成 的 
物理 磁盘 。 而 OS 在 这 个 磁盘 上 ， 还 可 以 进行 分 区 、 格 式 化 等 操作 。 


5.5.4 RAID $ dil as T] E ES LEE 


我 们 来 看 一 下 RAID 卡 对 逻辑 磁盘 进行 再 次 划分 的 具体 细节 。 既 然 要 划分 , 就 要 心中 有 
数 ， 比 如 某 块 磁 盘 的 某 个 区 域 ， 划 分 给 哪个 逻辑 盘 用 ， 对 应 逻辑 盘 的 LBA 地 址 是 多 少 ， 这 
块 磁盘 的 RAID 类 型 是 什么 等 。 而 这 些 东西 不 像 RAID 映射 那样 根据 几 个 简单 的 参数 就 能 确 
定 ， 而 且 对 应 关系 是 可 以 随时 变化 的 ， 比 如 扩大 和 缩小 、 移 动 等 。 所 以 有 必要 在 每 块 磁盘 
上 保留 一 个 区 域 ， 专 门 记录 这 种 逻辑 盘 划 分 信息 ，RAID 类 型 以 及 组 内 的 其 他 磁盘 信息 等 ， 
这 些 信息 统称 为 RAID 信息 。 不 同 厂家、 不 同 品牌 的 产品 实现 起 来 不 一 样 ，SNIA 委员 会 为 
了 统一 RAID 信息 的 格式 ， 专 门 定义 了 一 种 叫做 DDF 的 标准 ， 如 图 5.62 所 示 。 


32MB Minimum 


DDF Header (Primary). 


Physical Disk Records. 
"Virtual Disk Records. 
gur 


Els.62 DDF 布局 图 
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图 5.63 所 示 的 是 微软 和 Veritas 公司 合作 开发 的 软 RAID 在 磁盘 最 末 1MB 空间 创建 的 
数据 结构 。 有 了 这 个 记录 ，RAID 模块 只 要 读 取 同 一 个 RAD 子 系统 中 每 块 盘 上 的 这 个 记录 ， 
就 能 够 了 解 RAID 信息 。 即 使 将 这 些 磁盘 打 乱 顺 序 , 或 者 拿 到 其 他 支持 这 个 标准 的 控制 器 上 ， 
也 照样 能 够 认 到 所 划分 好 的 逻辑 盘 等 所 有 需要 的 信息 。 


MBR LDM 分 区 数据 LDM 元 数据 控制 区 域 
1MB 
i 元 数据 记录 区 ll 
私有 头 部 信息 MRTRESE rd 


5.63. Windows 系统 中 的 动态 磁盘 信息 


RAID 卡 可 以 针对 总 线 上 的 某 几 块 磁盘 做 一 种 RAID 类 型 ， 然 后 针对 另外 的 几 块 磁盘 做 
另 一 种 RAID 类 型 。 一 种 RAID 类 型 中 包含 的 磁盘 共同 组 成 一 个 RAID Group, (jf RG. 3 
辑 盘 就 是 从 这 个 RG 中 划分 出 来 的 ， 原 则 上 逻辑 盘 不 能 跨 RG 来 划分 ， 就 是 说 不 能 让 一 个 逻 
辑 盘 的 一 部 分 处 于 一 个 RG， 另 一 部 分 处 于 另 一 个 RG。 因 为 RG 的 RAID 类 型 不 一 样 ， 其 性 
也 就 不 一 样 ， 如 果 同 一 块 逻辑 盘 中 出 现 两 种 性 能 ， 对 上 层 应 用 来 说 不 是 件 好 事 ， 比 如 速 
度 可 能 会 忽 快 忽 慢 等 。 
张 真人 推出 了 这 两 门 绝技 之 后 ， 在 江湖 上 引起 了 轩然大波 。 大 家 争 相 修炼 ， 并 取得 了 
良好 的 效果 。 一 时 间 ， 江 湖上 几乎 人 人 都 练 了 张 真人 这 两 种 功夫 。 而 且 各 大 门派 已 经 将 七 
星 北 斗 阵 以 及 张 真人 的 功夫 作为 各 派 弟 子 必 须 掌 握 的 基本 功 。 
近水楼台 先 得 月 。 武 当 七 子 当然 已 经 把 功夫 练 到 了 炉火纯青 的 地 步 。 老 道 非常 欣慰 。 
他 相信 了 七 星 侠 在 天 之 灵 倘 若 看 到 了 这 阵 式 被 拓展 ， 一 定 也 会 感到 欣慰 的 。 
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老道 创立 这 两 种 功夫 的 兴奋 ， 很 快 就 被 一 个 不 大 不 小 的 问题 给 吹 得 烟消云散 。 这 个 问 
题 就 是 一 旦 逻辑 盘 划 分 好 之 后 就 无 法 改变 ， 要 改变 也 行 ， 上 面 的 数据 就 得 全 部 抹 掉 ， 这 是 
让 人 无 法 容忍 的 。 比 如 已 经 做 好 了 一 个 100GB 的 逻辑 盘 ， 但 是 用 了 2 年 以 后 ， 发 现 数据 越 
来 越 多 ， 已 经 盛 不 下 了 。 但 又 不 能 放 到 别 的 磁盘 ， 因 为 受 上 层 文件 系统 的 限制 ， 一 个 文件 
不 可 能 跨越 多 个 分 区 来 存放 ， 更 别提 跨越 多 个 磁盘 了 。 如 果 有 一 个 文件 已 经 超过 了 100GB, 
那么 谁 也 无 力 回 天 ， 只 能 重新 划分 逻辑 盘 。 数 据 怎么 办 ? 这 问题 遇 不 到 则 已 ， 遇 到 了 就 是 
死路 一 条 。 江 湖上 已 经 有 不 少 生 意 人 因为 这 个 问题 而 倾家荡产 ， 他 们 无 奈 之 余 ， 准 备 联合 
起 来 到 武当 奶 求 张 老道 想 一 个 办 法 ， 以 克服 这 个 难关 ， 好 让 他 们 东山 再 起 。 张 老道 对 他 们 
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的 遭遇 深 感 同 情 , 同时 也 责怪 自己 当初 玻 包 了 这 个 问题 。 于 是 他 当众 许 下 承诺 , 3 个 月 之 后 ， 
来 武当 取 解 决 办 法 。 
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其 实 张 真人 许 下 3 个 月 的 时 间 ， 他 自己 也 是 豪 无 把 握 。 但 是 为 了 平息 众 继 ， 也 只 能 冒 
仿 赌 一 次 了 ! 送 走 众人 之 后 ， 张 老道 就 开始 天 天 思考 解决 这 个 问题 的 办 法 。 他 想 ， 到 底 怎 
么 样 才 能 让 使 用 者 运用 自如 呢 ? 如 果 一 开始 就 给 他 划分 一 个 100GB WEHA, nO d 
不 下 了 ， 此 时 把 其 他 磁盘 上 未 使 用 的 空间 挪 一 部 分 到 这 个 逻辑 盘 ， 岂 不 是 就 可 以 了 么 ? 

可 以 是 可 以 , 但 从 RAID 卡 设置 里 增加 或 减少 逻辑 盘 容 量 很 费 功 夫 。 在 RAD 卡 里 增加 
这 种 代码 ， 修 炼 成 本 很 高 ， 而 且 即 使 实现 了 ， 主 机 也 不 能 立即 感应 到 容量 变化 。 即 使 感应 
到 了 ， 也 不 能 立即 变更 。 对 于 Windows 系统 来 说 ， 必 须 将 其 创建 为 新 的 分 区 。 想 要 合并 到 
现 有 分 区 ， 必 须 用 第 三 方 分 区 表 调 整 工 具 在 不 启动 操作 系统 的 情况 下 来 修改 分 区 表 才 行 。 
再 者 ， 其 上 的 文件 系统 不 一 定 会 跟着 扩大 ，NTFS 这 种 文件 系统 不 能 动态 张 缩 ， 也 必须 在 不 
启动 操作 系统 的 条 件 下 用 第 三 方 工具 调整 。 这 方法 对 一 些 要 求 不 间断 服务 的 应 用 服务 器 并 
不 适用 。 

老道 想到 这 里 ， 觉 得 至 少 是 已 经 找到 了 一 种 解决 办 法 ， 虽 然 不 是 很 方便 ， 需 要 重启 主 
机 ， 之 后 再 在 RAID 卡 中 更 改 配置 。 更 改 完毕 后 ， 可 能 还 要 重启 一 次 ， 然 后 进入 系统 ， 系 统 
才能 认 出 新 容量 的 磁盘 。 而 OS 就 算 正确 认 出 了 新 增 的 磁盘 容量 ， 由 于 分 区 表 没 有 改变 ， 新 
增 容量 不 属于 任何 一 个 分 区 ， 还 是 不 能 被 使 用 ， 所 以 还 需要 手动 修改 分 区 表 。 太 复杂 、 太 
麻烦 了 ， 能 否 找 一 种 方便 快捷 的 方法 呢 ? 

2. 得 来 全 不 费 工夫 一 一 来 源 于 现实 的 刺激 
话说 冬至 这 天 , REMETE. 武当 是 张 灯 结彩 , 喜气 洋洋 ! 这 天 是 张 真 人 的 70 大 寿 ! 

湖 各 大 门派 及 各 路 英雄 纷纷 前 来 拜 寿 。 武 当 上 下 忙 得 是 不 亦 乐 乎 ! 就 说 包 饺子 吧 ， 一 会 
而 不 够 了 去 和 面 ， 一 会 儿 水 不 够 了 去 挑 水 。 张 真人 是 往来 作 指 ， 笑 迎 来 宾 。 厨 房 则 加 紧 
面 ， 由 于 厨房 则 空间 太 小 ， 所 以 和 好 的 面 被 运往 各 个 分 理 点 处 ， 那 里 有 小 道 负责 所 皮包 
子 。 张 真人 看 着 眼前 这 小 老道 跑 来 跑 去 的 多 少 回 了 ， 就 纳 间 了， 所 以 跟着 去 看 看 怎么 回 
。 一 看 才 知 道 ， 弄 了 半天 是 往 各 处 运 面团 呢 ! 觉得 挺 好 笑 的 ， 也 没 当 回 事 。 等 大 家 都 差 
多 到 齐 了 ， 共 同 给 老道 视 了 寿 ， 然 后 就 上 饺子 了 。 张 老道 看 着 碗 里 一 个 个 的 饺子 ， 再 想 
刚才 那 面团 的 事 ， 心 里 突然 一 动 ! 于 是 当众 宣布 ， 一 个 月 前 自己 承诺 的 约定 过 不 了 几 天 
就 会 实现 了 ! 众 豪 杰 是 一 片 掌声 ! 
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27 «KA SUASIT EAE? 原来 ， 他 想起 了 小 道 包 饺子 和 面 的 情形 。 厨 房 和 了 

一 大 团 面 ， 下 面 随 用 随 取 。 不 够 了 ， 荐 一块 揉 进去 就 行 了 ， 或 者 赂 下 一 块 来 放 

Gd 着 下 次 用 。 这 不 正解 决 了 一 个 月 前 大 家 所 头疼 的 问题 么 ? RAID 控制 器 给 和 好 
了 几 团 面 (逻辑 盘 )， 放 那 由 自己 看 着 用 ， 哪 不 够 了 就 狗 块 补 上 。 必 须 实现 这 样 
一 种 像 儿 面团 一 样 灵活 的 管理 层 ， 才 能 最 终 解决 使 用 中 出 现 的 问题 。 是 啊 ， 说 
得 简单 ， 可 是 具体 要 做 却 不 是 那么 容易 的 。 
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当天 上 晚上， 老道 睡觉 的 时 候 就 一 个 劲 地 想 ， 在 RAD 控制 器 上 天 面 ， 以 前 也 分 析 过 了 ， 
不 合适 ， 那 么 在 哪里 儿 呢 ? RAD 控制 器 给 你 和 了 几 斤 面 ， 你 就 得 收 着 ， 不 要 也 不 行 。 但 是 
面 收 着 了 ， 你 可 以 自己 狂 蚜 ， 是 啊 ， 自 己 猎 。 那 么 就 是 说 ，RAID 控制 器 提交 给 OS 的 逻辑 
磁盘 。 应 该 可 以 儿 开 ， 或 者 揉搓 到 一 块 儿 去 ， 可 以 想 怎么 揉搓 就 怎么 揉搓 。 这 功能 如 果 能 
通过 在 操作 系统 上 运行 一 层 软件 来 实现 的 话 ， 不 但 灵活 ， 而 且 管 理 方便 ! 想到 这 ， 老 道 心 
里 有 了 底 。 

第 二 天 ， 老 道 就 让 徒弟 们 按照 他 写 的 口诀 来 实现 他 这 个 想法 ， 大 获 成 功 ! RAD 控制 器 
是 硬件 底层 实现 RAID, 实现 逻辑 盘 ， 所 以 操作 起 来 不 灵活 。 如 果 在 OS 层 再 把 RAID 控制 器 
提交 上 来 的 逻辑 盘 (0S 会 认 成 不 折 不 扣 的 物理 磁盘 ] 加 以 组 织 、 再 分 配 ， 就 会 非常 灵活 。 因 
为 OS 层 上 运行 的 都 是 软件 ， 完 全 靠 CPU 来 执行 ， 而 不 用 考虑 太 多 的 细节 。 张 老道 立即 将 
这 种 新 的 掌 法 公布 天 下 ， 称 作 神 仙 驾 龙 ! 
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实际 中 ， 有 很 多 基于 这 种 思想 的 产品 ， 这 些 产 品 都 有 一 个 通用 的 名 称 ， 叫 做 卷 管理 器 
(Volume Manager，VM]。 比 如 微软 在 Win2000 中 引入 的 动态 磁盘 ， 就 是 和 Veritas 公司 合 
作 开 发 的 一 种 VM， 称 为 LOMOZ $H RANE). Veritas 自己 的 产品 Veritas Volume 
Manager(VxVM) 和 广泛 用 于 Linux, AIX, HPUX 系统 的 LVM(Logical Volume Manager), Ul 
及 用 于 Sun Solaris 系统 的 Disk Suite, 都 是 基于 这 种 在 OS 层面 ,将 OS 识别 到 的 物理 磁盘 (可 
以 是 真正 的 物理 磁盘 ， 也 可 以 是 经 过 RAID 卡 虚拟 化 的 逻辑 磁盘 ) 进 行 组 合 ， 并 再 分 配 的 软 
件 。 它 们 的 实现 方法 大 同 小 异 ， 只 不 过 细节 方面 有 些 差异 器 了 。 

这 里 需要 重点 讲 一 下 LVM， 因 为 它 的 应 用 非常 普遍 。LVM 开始 是 在 Linux 系统 中 的 一 
种 实现 ， 后 来 被 广泛 应 用 到 了 AIX 和 HPUX 等 系统 上 。 

e PV: LVM 将 操作 系统 识别 到 的 物理 磁盘 (或 者 RAID 控制 器 提交 的 逻辑 磁盘 ] 改 了 
个 叫 法 ， 叫 做 Physical Volume， 物 理 卷 (一 块 面团 )。 
e VG: 多 个 PV 可 以 被 逻辑 地 放 到 一 个 VG 中 ,也 就 是 Volume Group 卷 组 。VG 是 一 
个 虚拟 的 大 存储 空间 ， 罗 辑 上 是 连续 ， 尽 管 它 可 以 由 多 块 PV 组成， 但 是 VG 会 将 
所 有 的 PV 首尾 相连 ， 组 成 一 个 逻辑 上 连续 编 址 的 大 存储 池 ， 这 就 是 VG. 

e PP: 也 就 是 Physical Partition( 物 理 区 块 )。 它 是 在 逻辑 上 再 将 一 个 VG 分 割 成 连续 

的 小 块 (把 一 大 盆 面 犹 成 大 小 相等 的 无 数 块 小 面团 块 )。 注 意 ,是 逻辑 上 的 分 割 ， 而 

不 是 物理 上 的 分 割 ， 也 就 是 说 LVM 会 记录 PP 的 大 小 (由 儿 个 扇 区 组 成 ) 和 PP 序号 

的 偏 移 。 这 样 就 相当 于 在 VG 这 个 大 池 中 顺序 切割 , 如 果 设 定 一 个 PP 大 小 为 4MB， 

BAXA PP 就 会 包含 8192 个 实际 物理 磁盘 上 的 扇 区 。 如 果 PV 是 实际 的 一 块 物 

时 磁盘， 那么 这 些 扇 区 就 是 连续 的 。 如 果 PV 本 身 是 已 经 经 过 RAID 控制 器 虚拟 化 

而 成 的 一 个 LUN, 那么 这 些 扇 区 很 有 可 能 位 于 若干 条 带 中 , 也 就 是 说 这 8192 ^P Bi 

区 物理 上 不 一 定 连续 。 

e LP: PP 可 以 再 次 组 成 LP， 即 Logical Partition( 逻 辑 区 块 )]。 轴 辑 区 块 是 比较 难 理 
解 的 一 个 东西 ， 一 个 LP 可 以 对 应 一 个 PP， 也 可 以 对 应 多 个 PP。 前 者 对 应 前 后 没 
什么 区 别 。 后 者 又 分 两 种 情况 ， 一 种 为 多 个 PP 组 成 一 个 大 LP， 像 RAID 0 一 样 ; 
另 一 种 是 一 个 LP 对 应 几 份 PP， 这 几 份 PP 每 一 份 内 容 都 一 样 ， 类 似 于 RAID 1, 
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多 个 PP 内 容 互 为 镜像 ， 然 后 用 一 个 LP 来 代表 它们 , 往 这 个 LP 写 数据 ， 也 就 同时 
写 入 了 这 个 LP 对 应 的 几 份 PP 中 。 
LV: 若干 LP 再 经 过 连续 组 合 组 成 LV(Logical Volunme, 395835), titi LVM 所 
提供 的 最 终 可 用 来 存储 数据 的 单位 。 生 成 的 逻辑 卷 ， 在 主机 看 来 还 是 和 普通 磁盘 
一 样 ， 可 以 对 其 进行 分 区 、 格 式 化 等 。 


思 | 有 人 间 了 ， 一 堆 面团 揉 来 揉 去 ， 最 终 又 变 成 一 堆 面 团 了 ， 你 这 是 揉 面 还 是 做 存 
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确实 ， 面 团 最 终 还 是 面团 。 但 是 此 面团 非 彼 面团 。 最 终 形成 的 这 个 LV， 它 的 大 小 可 以 
随时 变更 , 也 不 用 重启 OS. 你 想 给 扩 多 大 就 扩 多 大 , 前 提 是 面盆 里 面 还 有 被 锤 开 备用 的 PP。 
mH, KEREMMA PP， 你 就 可 以 再 创建 一 个 LV， 也 就 是 再 和 一 团 面 ，LV 数量 足够 用 的 。 
如 果 不 增 加 卷 管理 这 个 功能 ， 那 么 RAD 卡 提交 上 来 多 少 磁盘 ， 容 量 多 大 就 是 多 大 ， 不 能 在 
Os 层 想 改 就 改 、 为 所 和 欲 为 。 而 卷 管理 就 提供 了 这 个 为 所 欲 为 的 机 会 ， 让 你 随便 和 面团 。 
LVM 看 起 来 很 复杂 ， 其 实 操作 起 来 很 简单 。 创 建 PV， 将 PV 加 入 VG. TE VG 中 再 创建 
LV, 然后 格式 化 这 个 LV， 就 可 以 当成 一 块 普通 硬盘 使 用 了 。 容 量 不 够 了 ,还 可 以 随便 扩展 ， 
岂 不 快 哉 ? LVM 一 个 最 大 的 好 处 就 是 生成 的 LV 可 以 跨越 RAID 卡 提交 给 OS 的 物理 磁盘 (好 
辑 盘 ]。 这 是 理所当然 的 ， 因 为 LVM 将 所 有 物理 盘 都 搅和 到 一 个 大 面盆 中 了 ， 当 然 就 可 以 器 
越 物理 盘 了 。 


5.6.3 Linux 下 配置 LVM 实例 


下 面 我 们 以 RedHat Enterprise Linux Server 4 Update 5 操作 系统 为 例 ， 给 大 家 示例 一 
下 LVM 的 配置 过 程 。 
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在 操作 系统 安装 过 程 中 ， 选 择 手 动 配置 磁盘 管理 ， 如 图 5.64 所 示 。 

可 以 看 到 ， 这 台 机 器 共有 8 块 物理 磁盘 ， 每 块 的 容量 为 16B， 如 图 5.65 所 示 。 
首先 ， 需 要 定义 一 个 /boot 分 区 ， 这 个 分 区 是 用 来 启动 基本 操作 系统 内 核 的 ， 所 以 
这 块 空间 不 能 参与 LVM。 我 们 选择 从 第 一 块 硬盘 (sda) 划 分 出 20 个 磁道 的 空间 用 
来 作为 /boot 分 区 。 这 块 空间 也 就 成 了 sdal 设备 ， 如 图 5.66 所 示 。 

接 下 来 ， 对 于 sda2、sdb、sdc、sdd、sde、sdf、sdg、sdh 所 有 这 些 剩余 的 磁盘 或 
者 分 区 ， 就 可 以 将 它们 配置 成 LVM 的 PV( 物 理 卷 )。 选 中 每 个 磁盘 或 者 分 区 ， 单 击 
Edit 按钮 。 在 File System Type 下 拉 列 表 框 中 ， 选 择 physical volume(LVM) 选 项 ， 
表示 将 这 个 硬盘 或 者 分 区 配置 成 LVM 的 PV, PV 可 以 任意 设 定 大 小 , 只 要 编辑 End 
Cylinder 文本 框 中 的 值 即 可 。 剩 余 空 间 可 以 继续 作为 PV 再 次 分 配 。 对 每 个 磁盘 都 
进行 上 述 操作 ， 如 图 5.67 所 示 。 

操作 完成 后 ， 信 息 栏 中 显示 所 有 磁盘 和 sda2 分 区 都 已 被 配置 成 为 PV， 如 图 5.68 
所 示 。 

单 击 LVM 按钮 会 出 现 如 图 5.69 所 示 的 对 话 框 ,这 一 步 就 是 创建 VG(Volume Group, 
卷 组 ) 的 过 程 。 可 以 将 PV 进行 任意 组 合 ， 组 合 后 的 PV 就 形成 了 VG。 


Disk Partitioning 
Setup 


One ofthe largest obstacles for 
anew user during a Linux 
nstallation is partitioning. This 
process is made easier by 
providing automatic 
partitioning. 


aom Paare sets pear wed on e sac 
aon Woe Yos also can customize he puritors nce 
prn 


The manat dst parisoning td, D Du alos yos 


By selecting automatic 
idc id Wo system tps, neuer prs pararon ss, and vor 


partitioning, you do not have to 
use parttoning wols w assign 
mount points, create partions, 
or allocate space for your 
instalaton, 


Cawmacd pem 
[oe 


To parition manually, choose 
the Disk Druid partitioning 
dl. 


Use the Back bution to choose 由 


Er 


B 64 选择 手动 管理 
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zl 5 磁盘 列表 


Drive devsda (1020 MB) (Model: VMware, VMware VirualsS) 
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Drive jdev/sdb (1020 MIS) (Model: VMware, VMware Virtual 5) 
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C Force to be a primary partition 一 
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图 5.66 创建 /boot 分 区 


lev/sdal /boot  []Force to be a primary partition 
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C Hide RAID device/LVM Volume Group members. 
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5.67 ”设置 磁盘 类 型 为 LVM 管理 状态 


Make LVM Volume Group 


Volume Group Name: VdGroup)d] | 
Physical Extent: 4MB * 
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Bs 68 ”磁盘 状态 


B 69 创建 卷 组 
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7] 


这 里 我 们 做 一 个 名 为 “VolGroup00” 的 卷 组， 其 包含 sda2 和 sdb1 两 个 PV, 在 


Physical Extent 下 拉 列 表 框 中 , 可 以 选择 这 个 卷 组 对 应 的 磁盘 空间 的 最 小 分 配 单位 
(Æ AIX 的 LVM 中 ， 这 个 最 小 单位 成 为 Physical Partition, EI PP)。 然 后 单 击 下 方 
的 Add 按钮 ， 从 这 个 大 的 卷 组 空间 中 再 次 划分 逻辑 卷 , 即 LV。 下 面 创建 一 个 大 小 
为 1000MB 的 逻辑 卷 LogVol00, 并 且 用 ext3 文件 系统 将 这 个 卷 格式 化 , 并 挂 载 到 


/home 目录 下 ， 如 图 5.70 所 示 。 
然后 将 VolGroup00 卷 组 中 剩余 的 空间 ， 全 部 分 配给 一 个 新 的 LV， 即 LogVol01， 


81 


用 ext3 文件 系统 格式 化 ， 并 挂 载 到 /tmp 目录 下 ， 如 图 5.71 所 示 。 


Make LVM Volume Group 


Phys 
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图 5.70_ 创 建 LV 并 挂 载 
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B5: 创建 LV 并 挂 载 


将 剩余 的 sdcl, sdd1, sdel, sdfl, sdgl, sdh13XJLHEt PV 全 部 分 配给 一 个 新 的 


卷 组 VolGroup01, 并 且 在 卷 组 中 创建 一 个 逻辑 卷 LogVol00, 大 小 为 整个 卷 组 的 大 
小 ， 用 ext3 文件 系统 格式 化 ， 并 挂 载 到 /目录 下 ， 如 图 5.72 所 示 。 


10] 配置 完成 后 的 状态 如 图 5.73 所 示 。 
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B 5.72 ĉe LV 并 挂 载 


564 卷 管理 软件 的 实现 
说 到 这 ， 别 以 为 LVM 就 只 会 像 疯 子 一 样 ， 
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573 ”配置 完成 后 的 状态 


拿 来 面团 就 揉 到 一 起 ， 故 来 狂 去 ， 什 么 都 不 
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管 ， 那 样 岂 不 真 成 了 马 大 哈 了 。 它 是 需要 在 心里 暗自 记录 的 ， 比 如 某 块 物理 盘 的 名 称 和 容 
量 。 表 面 上 是 和 其 他 物理 盘 融 合 到 一 起 ， 但 还 是 要 记 住 谁 是 谁 ， 从 哪里 到 哪里 属于 这 块 盘 ， 
从 哪里 到 哪里 属于 那 块 盘 ， 地 址 多 少 ， 等 等 。 

这 些 信 息 记 录 在 磁盘 上 的 某 个 区 域 ，LVM 中 这 个 区 域 叫做 VGDA。LVM 就 是 通过 读 取 
每 块 物理 磁盘 上 的 这 个 区 域 来 获取 LVM 的 配置 信息 ， 比 如 PP 大 小 、 初 始 偏 移 、PV 的 数量 
和 信息 、 排 列 顺序 及 映射 关系 等 。LVM 初始 化 的 时 候 会 读 取 这 些 信 息 ， 然 后 在 缓存 中 生成 
对 应 的 映射 公式 ， 从 而 完成 LV 的 挂 载 。 挂 载 之 后 ， 就 可 以 接受 10 了 。 比 如 上 层 访问 某 个 
LV 的 LBA OxFF 地 址 ， 那 么 LVM 就 需要 通过 缓存 中 的 映射 关系 判断 这 个 地 址 对 应 到 实际 物 
理 磁盘 是 哪个 或 哪 几 个 实际 地 址 。 假设 这 个 地 址 实际 对 应 了 磁盘 a 的 LBA 0xAA 地 址 ， 那 么 
就 会 通过 磁盘 控制 器 驱动 直接 给 这 个 地 址 发 数据 ， 而 这 个 地 址 被 RAID 控制 器 收 到 后 , 可 能 
还 要 做 一 次 转换 。 因 为 0S 层 的 “物理 磁盘 ”可 能 对 应 真正 的 存储 总 线 上 的 多 块 物理 磁盘 ， 
这 个 映射 就 需要 RAID 控制 器 来 做 了 ， 原 理 都 是 一 样 的 。 
卷 管理 软件 对 待 由 RAID 卡 提交 的 逻辑 盘 (0S 识别 成 物理 磁盘 ) 和 切切 实 实 的 物理 盘 的 
方法 是 一 模 一 样 的 。 也 就 是 说 ,不 管 最 底层 到 底 是 单 物理 盘 ， 还 是 由 RAID fats arn 
辑 物 理 盘 ， 只 要 OS 认 成 它 是 一 块 物理 磁盘 ， 那 么 卷 管理 器 就 可 以 对 它 进 行 卷 管 理 。 只 不 过 
对 于 RAID 提交 的 轴 辑 盘 ， 最 终 还 是 要 通过 RAID 控制 器 来 和 最 底层 的 物理 磁盘 打交道 。 
Linux 下 的 LVM 甚至 可 以 对 物理 磁盘 上 的 一 个 分 区 进行 卷 管理 ， 将 这 个 分 区 做 成 一 
个 PV。 

卷 管理 软件 就 是 运行 在 OS 操作 系统 磁盘 控制 器 驱动 程序 之 上 的 一 层 软件 程序 , 它 的 作 
就 是 实现 RAID 卡 硬件 管理 磁盘 空间 所 实现 不 了 的 灵活 功能 ， 比 如 随时 扩容 。 

为 什么 卷 管理 软件 就 可 以 随时 在 线 扩容 ， 灵 活性 这 么 强 呢 ? 首先 我 们 要 熟悉 一 个 知识 ， 
也 就 是 OS 会 自 带 一 个 卷 管理 软件 层 ， 这 个 卷 管理 软件 非常 简单 ， 它 只 能 管理 单个 磁盘 ， 而 
不 能 将 它们 组 合 虚拟 成 卷 ， 不 具有 高 级 卷 管理 软件 的 一 些 灵 活 功 能 。0S 自 带 的 一 些 简单 
VM( 卷 管理 软件 , 只 会 调用 总 线 驱 动 (一 种 监视 10 总 线 Plug And Play, 即 PNP, 即 插 即 用 )， 
发 现 硬 件 之 后 再 挂 接 对 应 这 个 硬件 的 驱动 ， 然 后 查询 出 这 个 硬件 的 信息 ， 其 中 就 包括 容量 ， 
所 以 我 们 才 会 在 磁盘 管理 器 中 看 到 一 块 块 的 磁盘 设备 。 即 从 底层 向 上 依次 是 物理 磁盘 、 磁 
得 控制 器 、I0 总 线 、 总 线 驱 动 、 磁 盘 控 制 器 驱动 、 卷 管理 软件 程序 、0S 磁盘 管理 器 中 看 见 
的 磁盘 设备 。 

而 高 级 卷 管理 软件 是 将 原本 0S 自 带 的 简陋 的 卷 管理 功能 进行 了 扩展 , 比如 可 以 对 多 个 
磁盘 进行 组 合 、 再 分 等 。 不 管 是 OS 单一 VM 还 是 高 级 VM， 磁 盘 在 VM 这 一 层 处 理 之 后 ， 
应 该 称 为 卷 比 较 恰 当 ， 就 算 卷 只 由 一 块 磁盘 抽象 而 成 ， 也 不 应 该 再 称 作 磁 盘 了 。 因 为 磁盘 
这 个 概念 只 有 对 磁盘 控制 嚣 来 说 才 有 意义 。 

nh 真 的 就 是 由 盘 片 和 磁头 组 成 。 而 卷 管 理 软 件 看 待 磁盘 ， 会 认为 

一 个 线性 存储 的 大 仓库 ， 而 不 管 这 个 仓库 用 的 是 什么 存储 方式 ， 仓 库 每 个 房间 都 有 一 
FRANEA 逻辑 块 地 址 ), VM 必须 知道 这 些 地 址 一 共有 多 少 。 M CART 
软件 ) 从 某 一 段 地 址 (LBA 地 址 段 ) 存 取 某 些 货物 (数据 )， 那 么 库 管 员 就 得 立即 操控 他 的 机 器 
(磁盘 控制 器 ] 来 到 各 个 房间 存 取 货 物 (数据 ]。 这 就 是 VM 的 作用 o 

在 底层 磁盘 扩容 之 后 ,磁盘 控制 器 驱动 程序 会 和 VM 打 个 招呼 , 我 已 经 增 大 了 多 少 容量 

你 看 着 办 吧 。 卷 说 : “好 ， 你 不 用 管 了 ， 专 心 在 那 干 活 吧 ， 我 告诉 你 读 写 哪个 LBA 地 
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址 的 数据 你 就 照 我 的 话 办 。” 这 样 之 后 ，VM 就 会 直接 将 等 待 扩容 的 卷 的 容量 立即 扩大 ， 放 

入 池 中 备用 ， 对 上 层 应 用 没有 丝毫 影响 。 所 以 VM 可 以 屏蔽 底层 的 变化 。 
至 于 扩容 和 收缩 多 辑 卷 ， 对 VM 来 说 是 小 事 一 桩 。 但 是 对 于 其 上 的 文件 系统 来 说 ， 处 理 

起 来 就 复杂 了 。 所 以 扩大 和 收缩 卷 ， 需 要 其 上 的 文件 系统 来 配合 ， 才 能 不 影响 应 用 系统 。 


5.65 ”低级 VM 和 高 级 VM 

1. MBR 和 VGDA 

分 区 管理 可 以 看 作 是 一 种 最 简单 的 卷 管理 方式 ， 它 比 LVM 等 要 低级 。 分 区 就 是 将 一 块 
磁盘 抽象 成 一 个 仓库 ， 然 后 将 这 个 仓库 划分 成 具体 的 一 库 区 、 二 库 区 等 。 因 为 一 个 仓库 太 
大 的 话 ， 对 用 户 来 说 很 不 方便 。 比 如 一 块 100GB 的 磁盘 ， 如 果 只 分 一 个 区 ， 就 显得 很 不 便 
于 管理 。 有 两 种 方法 解决 这 个 问题 。 

e 可 以 用 低级 VM 管理 软件 ， 比 如 Windows 自 带 的 磁盘 管理 器 ， 对 这 个 磁盘 进行 

分 区 。 

e 用 高 级 VM 管理 软件 ， 将 这 个 盘 做 成 卷 ， 然 后 灵活 地 进行 划分 逻辑 卷 。 

这 两 种 方法 可 以 达到 将 一 个 仓库 逻辑 划分 成 多 个 仓库 的 效果 。 所 不 同 的 是 分 区 管理 这 
种 低级 卷 管理 方式 ， 只 能 针对 单个 磁盘 进行 再 划分 ， 而 不 能 将 磁盘 合并 再 划分 。 


KA sb PRR VM 的 分 区 管理 来 说 ， 必 须 有 一 个 东西 来 记录 分 区 信息 ， 如 第 一 仓库 
> 区 是 整个 仓库 的 哪些 房间 ， 从 第 几 个 房间 开始 到 第 几 个 结束 是 第 二 仓库 区 ， 等 
qu d EE E. 这 样 ， 每 次 OS 启动 的 时 候 ，VM 通过 读 取 这 些 信息 就 可 以 判断 

这 个 仓库 一 共有 几 个 逻辑 区 域 ， 从 而 在 “我 的 电脑 ”中 显示 出 逻辑 磁盘 列表 。 
那么 怎么 保存 这 个 分 区 信息 呢 ? 


毫 无 疑问 ， 它 不 能 保存 在 内 存 里 ， 更 不 能 保存 在 CPU 里 ， 它 只 能 保存 在 磁盘 上 。 分 区 
信息 被 保存 在 分 区 表 中 ， 分 区 表 位 于 磁盘 0 磁道 0 磁头 的 0 号 扇 区 上 ， 也 就 是 LBA1 这 个 
地 址 的 扇 区 上 。 这 个 扇 区 又 叫做 MBR， 即 主 引导 记录 。MBR 扇 区 不 仅仅 保存 分 区 表 ， 它 还 
保存 了 BIOS 跳 转 时 所 需要 执行 的 第 一 句 指令 代码 ， 所 以 才 叫 做 主 引导 记录 。 

BIOS 代码 都 是 固定 的 ， 它 每 次 必定 要 执行 LBA1 扇 区 上 的 代码 。 如 果 修 改 BIOS, ibt 
执行 LBA100 扇 区 的 代码 ,也 可 以 , 完全 可 以 。 但 是 现在 的 BIOS 都 是 执行 LBA1 处 的 代码 ， 
没 人 去 改变 。 而 新 出 的 规范 EFI 将 要 取代 BIOS， 并 且 在 安 腾 机 上 已 经 使 用 了 ， 一 些 苹果 笔 
记 本 也 开始 使 用 EFI 作为 BIOS 的 替代 。 在 EFI 中 可 以 灵活 定制 这 些 选项 , 比如 从 哪里 启动 ， 
不 仅 可 以 选择 设备 ， 还 可 以 选择 设备 上 的 具体 地 址 。 

MBR 中 除了 包含 启动 指令 代码 ， 还 包含 分 区 表 。 通 常 启动 时 ， 程 序 都 会 跳 转 到 活动 分 
区 去 读 取代 码 做 OS 的 启动 ， 所 以 必须 有 一 个 活动 分 区 。 这 在 分 区 工具 中 可 以 设置 。 

高 级 卷 管理 软件 在 划分 了 逻辑 卷 之 后 ， 一 定 要 记录 逻辑 卷 是 怎么 划分 的 ， 比 如 LVM 就 
需要 记录 PV 的 数量 和 信息 、PP 的 大 小 、 起 始 位 置 及 LV 的 数量 和 信息 等 。 这 些 信 息 都 要 保 
存在 磁盘 上 ， 所 以 也 要 有 一 个 数据 结构 来 存储 。 这 个 数据 结构 ，LVM 使 用 VGDA(Volume 
Group Descriptor Area). 每 次 启动 系统 ，VM 就 是 通过 读 取 这 些 数据 来 判断 目前 的 卷 情况 并 
挂 载 LV 的 。VGDA 大 致 结构 示意 图 如 图 5.74 所 示 。 
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B 5.74 VGDA 示意 图 

不 管 是 MBR 中 的 分 区 表 ， 还 是 VGDA9 HiH, ERRAR, ES RU 
会 于 失 ， 整 个 系统 的 数据 就 不 能 被 访问 。 

低级 VM 在 给 磁盘 分 区 的 时 候 ， 会 更 新 MBR 中 的 分 区 表 ; 高 级 VM 做 逻辑 卷 的 时 候 ， 
司 样 也 会 更 新 VGDA 中 的 数据 。 其实 高 级 VM 初始 化 一 组 新 磁盘 的 时 候 ， 并 没有 抛弃 MBR. 
因为 它们 除了 写 入 VGDA 信息 之 外 ， 也 要 更 新 MBR 扇 区 中 的 分 区 表 ， 将 用 于 启动 基本 操作 
系统 的 代码 单独 存放 到 一 个 小 分 区 中 ， 并 标明 分 区 类 型 为 bootable 类 型 ， 证 明 这 个 分 区 是 
月 于 在 卷 管理 模块 还 没有 加 载 之 前 启动 操作 系统 的 。 并 将 磁盘 所 有 剩余 容量 划分 到 一 个 分 
区 中 ， 并 标明 这 个 分 区 的 类 型 ， 如 AIX 类 型 。 
在 安装 Linux 的 时 候 ， 必 须 单独 划分 一 个 /boot 分 区 ， 这 个 分 区 就 是 用 于 启动 基本 操作 
系统 用 的 ，100MB 大 小 足 侨 。 启 动 操 作 系统 所 必需 的 代码 都 放 在 这 个 分 区 。 同 样 AIX 系统 
也 要 保留 一 个 分 区 用 来 启动 最 基本 的 操作 系统 代码 。 这 也 是 AIX 在 进行 了 Mirrorvg 镜像 操 
作 之 后 ， 需 要 执行 BOSboot 命令 来 写 入 boot 分 区 的 内 容 的 原因 ， 因 为 boot 分 区 没有 参与 
VM 管理 。 这 个 启动 分 区 是 不 能 做 到 VM 中 的 ， 因 为 VM 代码 不 是 在 BIOS 将 控制 交 给 OS 的 
上 时 候 一 开始 就 执行 的 。 

总 之 ， 高 级 VM 没有 抛弃 MBR 分 区 的 解决 方案 ， 而 是 在 MBR 基础 上 ， 又 增加 了 类 似 
VGDA 这 种 更 加 灵活 的 数据 结构 来 动态 管理 磁盘 。 

2. RAID 功能 

高 级 VM 软件 一 般 均 带 有 软 RAID 功能 ， 可 以 实现 逻辑 卷 之 间 的 镜像 。 更 有 其 者 ， 有 些 
VM 甚至 实现 了 类 似 RAID 0 的 条 带 化 。 在 卷 的 级 别 条 带 化 ， 达 到 在 物理 盘 级 别 条 带 化 同样 
的 目的 。 但 是 如 果 磁 盘 已 经 被 硬件 RAID 控制 器 条 带 化 过 了 ， 并 且 这 些 LUN 是 在 一 个 RAID 
Group P, MA VM 再 来 条 带 化 一 下 子 不 但 没有 必要 ， 而 且 可 能 二 次 条 带 化 会 将 效果 抵消 。 

Windows 的 动态 磁盘 VM 还 可 以 以 纯 软 件 方式 实现 RAID 5， 所 有 计算 都 靠 CPU， 所 以 
也 就 注定 了 它 比 硬件 RAID 更 灵活 ， 但 在 高 系统 负载 的 情况 下 ， 它 相 比 硬件 RAID 来 说 速度 
和 性 能 稍 差 。 


5.6.6 VxVM 卷 管理 软件 配置 简介 


VxVM 是 Veritas 公司 开发 的 一 个 高 级 卷 管理 软件 ， 支 持 RAID 0、RAID 1、RAID 01 和 
RAID 5 四 种 软 RAID 模式 ， 支 持 动态 扩大 和 缩小 卷 容量 。 

下 面 的 例子 是 在 一 个 UNIX 系统 中 对 4 块 磁盘 做 卷 管理 的 案例 。 所 有 命令 均 在 UNIX 的 
Shell 下 执行 。 
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1. 创建 磁盘 组 
磁盘 组 就 是 将 所 有 磁盘 作为 一 个 大 的 资源 池 ， 卷 将 在 这 个 池 中 产生 。 
1] 首先 ， 初 始 化 硬盘 。 


vxdisksetup -i diskl 
vxdisksetup -i disk2 
vxdisksetup -i disk3 
vxdisksetup -i disk4 


2] 然后 创建 一 个 名 为 “DataDG” 的 磁盘 组 ， 该 磁盘 组 包含 了 diskl, disk2, disk3 
和 disk4 四 个 磁盘 。 
vxdg init DataDG disk1 disk2 disk3 disk4 

除了 这 种 方法 ， 用 户 还 可 以 用 以 下 方法 来 创建 磁盘 组 。 


vxdg init DataDG DataDG01=disk1; (创建 一 个 只 包含 disk1 的 磁 栓 组 ) ; 
vxdg -g DataDG adddisk DataDG02=disk2 (将 disk2 加 入 到 该 磁 梳 组 ) ; 
vxdg -g DataDG adddisk DataDG03=disk3 (将 disk3 加 入 到 该 磁盘 组 ) ; 
vxdg -g DataDG adddisk DataDG03-disk4 (将 disk4 加 入 到 该 磁盘 组 ) ; 


如 果 用 户 在 所 需 磁盘 空间 不 足 ， 需 要 扩容 的 时 候 ， 利 用 添加 磁盘 到 磁盘 组 的 方法 ， 就 
可 以 在 不 破坏 现 有 环境 的 情况 下 扩大 系统 的 容量 。 
2. 创建 卷 
11 创建 卷 必须 指明 在 哪个 磁盘 组 下 面 创建 ， 最 常用 的 方法 如 下 。 
vxassist -g DataDG make DataVolA 5g 
该 命令 将 在 DataDG 磁盘 组 上 创建 名 为 “DataVolA” 的 卷 ， 卷 的 大 小 是 5GB。 
2] 如 果 用 户 希 望 该 卷 只 创建 在 diskl 和 disk2 上 面 ， 不 占用 disk3 和 disk4 的 空间 ， 
那么 可 以 执行 下 列 命 令 。 
vxassist -g DataDG make DataVolA 5g diskl disk2 
3] 创建 一 个 5GB 大 小 的 条 带 卷 (RAID 0), 


vxassist -g DataDG make DataVolB 5g layout-stripe 


这 样 就 在 DataDG 磁盘 组 上 面 建立 了 一 个 名 为 “DataVolB” 的 5GB 大 小 的 条 带 卷 。 


04 块 物理 磁盘 中 ， 只 有 5GB 的 空间 是 条 带 化 的 ， 剩 余 的 空间 还 是 常规 的 磁盘 空 
间 。 为 什么 呢 ? 条 带 化 RADO 不 是 需要 至 少 两 块 物 理 硬 盘 么 ? 这 就 是 卷 管理 
3 软件 的 优越 性 了 。 我 们 上 文 提 过 ， 卷 管理 软件 将 物理 磁盘 划分 为 PP 和 LV， 所 
以 有 了 更 加 细 粒 度 的 存储 单位 ， 条 带 化 可 以 在 这 些 LV 之 间 进 行 ， 而 其 他 LV 
不 受 影响 。 


4] 创建 RAID 5 格式 的 卷 。 


vxassist -g DataDG make DataVolC 5g layout-RAID 5 
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注 |RAID5 至 少 需要 3 块 盘 ， 否 则 不 能 成 功 。 因 为 两 块 盘 的 RAID 5， 还 不 如 做 
意 」RAID 1. 但 是 3 块 盘 的 RAID 5 不 能 获得 并 发 IO 性 能 。 


51 创建 镜像 卷 (RAID 1)。 
vxassist -g DataDG make DataVolD 5g layout-mirror 
61 创建 RAID 10 25, 


vxdg init RAID 10dg diskl disk2 disk3 disk4 创建 磁盘 组 
vxassist -g RAID 10dg RAID 10vol 5g layout-mirror-stripe 


7] 创建 RAID 01 35, 


vxdg init RAID 01dg diskl disk2 disk3 disk4 创建 磁 向 组 
vxassist -g RAID 01dg RAID 01vol 5g layout= stripe-mirror 


3. 创建 文件 系统 并 使 用 


mkfs -F vxfs /dev/vx/rdsk/DataDG/DataVolA; 
mount -F vxfs /dev/vx/dsk/DataDG/DataVolA /mt 


以 上 例子 将 卷 DataVolA 格式 化 成 VxFS(Veritas 公司 的 文件 系统 ] 格 式 ,然后 挂 载 于 /mnt 
目录 下 ， 执 行 命令 cd /mnt 之 后 ， 就 可 以 读 写 这 个 卷 的 内 容 了 。 
4. 动态 扩大 和 缩小 卷 
11 将 卷 空 间 增加 到 10GB。 
vxassist -g DataDG growto DataVolA 10G 
2) 更 改 之 后 ， 卷 的 容量 将 会 变 成 10GB。 或 者 用 vxresize 命令 。 
vxresize -g DataDG DatavolA 10G 
3] 将 卷 容量 增加 10GB。 
vxassist -g DataDG growby DataVolA 10G 
4] 或 者 用 vxresize MS: 
vxresize -g DataDG DatavolA +10G 
这 样 ， 更 新 之 后 卷 的 容量 将 在 原来 的 基础 上 增加 10GB 大 小 。 
5. 文件 系统 动态 扩容 
卷 扩 容 之 后 ， 只 是 在 卷 的 末尾 增加 了 一 块 多 余 空间 。 这 块 空间 如 果 没 有 文件 系统 的 管 
理 就 无 法 存放 文件 ， 所 以 必须 让 文件 系统 将 这 块 多 余 的 空间 利用 起 来 。 
fsadm -F vxfs -b 10240000 -r dev/vx/rdsk/DataDG/DataVolA /mnt 
6. 文件 系统 缩小 
如 果 决 定 将 某 个 卷 缩小 以 省 出 更 多 空间 ， 则 在 缩小 卷 空间 之 前 ， 必 须 缩小 文件 系统 的 
空间 。 也 就 是 说 ， 被 裁 掉 的 卷 空间 上 存放 的 数据 ， 需 要 转移 到 卷 剩 余 的 空间 上 存放 ， 所 以 
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剩余 空间 必须 足够 ， 以 便 容纳 被 裁 掉 空间 中 的 数据 。 

fsadm -F vxfs -b 5120000 -r dev/vx/rdsk/DataDG/DataVolA /mnt 

以 上 命令 将 这 个 卷 上 的 文件 系统 缩小 至 5GB 大 小 。 剩 余 的 5GB 没有 数据 ， 可 以 被 裁 
剪 掉 。 

7. 卷 容 量 缩小 

在 缩小 了 文件 系统 之 后 ， 卷 容量 方 可 缩小 。 


vxassist -g DataDG shrinkto DataVolA 5G 
vxresize -g DataDG DataVolA 5G 


上 面 的 两 个 命令 均 可 以 使 DataVolA 卷 的 容量 变 为 5GB。 


ssist -g DataDG shrinkby DataVolA 5G 
esize -g DataDG DataVolA -5G 


上 面 的 两 个 命令 均 可 以 使 DataVolA 卷 的 容量 在 原来 的 基础 上 缩减 5GB。 
8. 从 磁盘 组 中 移 除 磁盘 
若 想 从 磁盘 组 中 移 除 一 块 或 者 几 块 物理 磁盘 ， 则 必须 先 将 待 移 除 物 理 磁盘 上 的 数据 转 
移 到 磁盘 组 中 的 其 他 物理 磁盘 的 剩余 空间 中 ， 这 个 动作 通过 下 面 的 命令 完成 。 
vxevac -g DataDG DataDG04 DataDG03 
上 面 的 命令 将 disk4 中 的 数据 转移 到 disk3 上 。 除 了 容量 改变 之 外 ， 不 会 影响 卷 的 其 他 
信息 。 
Vxdg -g DataDG rmdisk disk4 
上 面 的 命令 将 已 经 没有 数据 的 disk4 物理 磁盘 从 磁盘 组 DataDG 中 移 除 (逻辑 移 除 )] 。 


vxdiskunsetup -C Disk4 


上 面 的 命令 将 disk4 物理 磁盘 从 整个 VxVM 管理 模块 中 注销 。 


5.7 大 话 文 件 系 统 


5.7.1 成 何 体 统一 一 没有 规 算 的 仓库 


话说 这 一 天 ， 老 道 闲 来 无 事 ， 在 后 山 溜达 。 他 走 到 了 武当 的 粮 库 门口 ， 发 现 这 里 堵 了 
一 大 帮 人 。 老 道上 前 一 问 ， 原 来 这 些 人 都 是 各 个 院 来 领取 粮食 的 。 只 见 他 们 一 拥 而 上 ， 进 
入 仓库 就 各 自 找 自己 的 房间 去 搬 粮 食 。 老 道 一 看 ， 怎 么 这 么 乱 呢 ? 就 不 能 有 个 顺序 么 ? 

他 向 其 中 一 个 小 道 打听 了 一 下 ， 这 才 知 道 ， 造 成 这 种 乱七八糟 进入 粮 库 搬 粮 食 局 面 的 
原因 ， 是 因为 当初 没有 好 好 规划 仓库 。 上 个 月 ， 各 个 院 从 山下 各 自 运 了 粮食 上 来 ， 当 时 的 
政策 是 大 家 各 自 进入 仓库 ， 自 己 找 房间 放 自己 的 粮食 ， 自 己 找 了 哪些 房间 放 粮 食 ， 自 己 记 
住 了 。 到 取 粮 食 的 时 候 ， 大 家 根据 自己 记录 的 房间 来 进入 取 粮 。 这 个 政策 看 似 没什么 可 非 
议 的 ， 实 则 不 然 。 如 今 山下 粮食 供应 紧张 ， 造 成 大 家 各 顾 各 的 ， 没 有 顺序 ， 岂 能 不 乱 ? E 
道 进 入 粮仓 一 看 ， 眼 前 一 片 狼藉 ! 土豆 、 西 红 柿 酒 落得 满 地 都 是 。 这 间 房 放 这 样 ， 那 间 房 
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放 那 样 ， 就 不 能 顺序 地 堆放 粮食 蔬菜 ? 成 何 体 统 ! ! 


在 早期 的 计算 机 系统 中 ， 每 个 程序 都 必须 自己 管理 磁盘 ， 在 磁盘 中 放 自 己 的 数 
据 ， 程 序 需要 直接 和 磁盘 控制 器 打交道 。 有 多 少 个 程序 要 利用 磁盘 ， 就 有 多 少 
5 个 和 磁盘 交互 的 驱动 接口 。 


老道 摇 了 摇头 ， 得 想 个 办 法 彻底 解决 这 个 问题 。 老 道 回 到 了 书房 ， 闭 目 思 索 。 首 先 大 
家 不 能 都 堵 在 门口 ， 那 么 必须 让 他 们 排 起 队 来 。 其 次 ， 每 个 人 各 顾 各 ， 自 己 记录 自己 用 了 
哪 间 房子 ， 一 个 是 浪费 ， 另 一 个 是 容易 造成 冲突 。 一 旦 某 个 人 记 错 了 ， 就 会 影响 其 他 人 。 
了 么 就 应 该 只 让 一 个 人 记录 所 有 人 的 信息 ， 他 自己 不 会 和 自己 冲突 。 同 样 这 个 人 也 要 充当 
一 个 门卫 的 作用 ， 接 待 来 取 粮 或 者 送 粮 的 人 ， 让 他 们 按 一 定 的 顺序 来 运作 。 
最 终 决 定 就 应 该 是 这 样 的 : 找 一 个 人 ， 这 个 人 的 职责 就 是 接待 来 取 粮 或 者 送 粮 的 人 ， 
把 要 取 的 或 者 要 送 的 粮食 的 名 称 和 数量 等 信息 先 登记 在 这 个 人 的 一 个 本 子 上 ， 然 后 由 这 个 
人 来 合理 地 选择 仓库 中 的 房间 ， 存 放 或 提取 登记 在 案 的 粮食 ， 而 且 提取 或 放 入 粮食 之 后 要 
将 本 子 上 的 记录 更 新 ， 以 便 下 次 备查 。 嗯 ， 这 么 做 就 好 多 了 ， 哈 哈哈 哈 ! 这 天 晚上 的 北斗 
上 星 ， 光 芒 格 外 耀眼 。 
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第 二 天 ， 老 道 亲自 挑选 了 一 位 才思 敏捷 、 内 向 稳重 、 善 于 思考 的 道士 来 担任 这 个 重要 
的 角色 。 让 他 和 库 管 员 一 起 完成 管理 粮 库 的 工作 ， 给 他 起 了 一 个 职称 ， 叫 做 理 货 员 。 并 且 
将 自己 的 想法 告诉 了 这 位 道士 ， 让 他 当晚 就 考虑 出 一 套 符合 这 个 思想 的 方法 ， 还 可 以 做 出 
就 这 样 ， 又 过 了 一 晚 。 第 三 天 ， 这 位 道士 上 任 了 。 一 大 早 ， 张 老道 就 在 暗中 观察 。 这 
上 时 候 ， 一 个 送 粮食 的 人 来 了 ， 他 带 了 1024 斤 土 豆 和 512 斤 白 菜 。 这 人 还 是 按 老 习 惯 ， 上 来 
MECE. MÉRETE: “ 道 长 且慢 ! 您 需要 送 的 是 什么 蔬菜 ? ” 那 人 道 ， “土豆 
和 白菜 ! ”小 道士 又 道 ， “土豆 多 少 斤 ? ” BE: “土豆 1024 斤 。”( 上 面 这 个 过 程 就 是 
应 用 程序 和 FS 的 API 交互 的 过 程 )。 小 道士 笑 道 ， “ 道 长 尽 可 放心 将 土豆 交 于 我 ， 我 自 当 
为 您 找 房 间 存 放 。” 然 后 小 道士 到 仓库 中 找 了 2 个 空房 间 ， 每 个 房间 放 了 512 TEF. 
ERT EWR: “土豆 1024 Jr bili] 1 一 2。” 接 着 他 就 命令 库 管 员 来 搬运 货物 到 相应 的 房间 。 

道士 给 每 个 库 区 都 预备 了 一 个 记录 本 。 小 道士 不 关心 具体 房间 到 底 在 仓库 哪里 ， 怎 么 
走 才 能 达到 ， 这 些 事情 统统 由 库 管 员 来 协调 。 小 道士 同样 也 不 关心 来 送 货 物 的 人 到 底 送 的 
是 什么 货物 。 如 果 送 粮 的 人 告诉 他 ， 请 给 我 存放 rubbish 1000 斤 ， 道 士 眼 都 不 上 用 照样 给 人 
存放 。 一 旦 仓库 的 房间 都 满 了 ， 小 道 长 再 次 命令 库 管 员 搬 运 货物 的 时 候 ， 库 管 员 就 会 告诉 
他 ， 已 经 没有 房间 了 。 那 么 道 长 就 告诉 来 存放 货物 的 人 : “对 不 起 ， 空 间 不 足 ”。 
同样 的 方法 ， 小 道士 将 那 人 的 白菜 ， 也 放 到 了 一 间 房 中 ， 记 录 下 : “白菜 5127 房 
间 3”。 然 后 向 那 人 说 到 : “这 位 道 长 ， 您 下 次 来 取 的 时 候 ， 直 接 向 我 说 要 某 厨 房 存 放 的 土 
豆 多 少 斤 就 可 以 了 ， 我 会 帮 您 找到 并 取出 。” 那 人 非常 满意 地 离 去 了 。 接 着 又 有 很 多 人 也 
来 送 取 冬瓜 、 南 瓜 、 西 瓜 、 大 米 、 面 粉 等 粮食 蔬菜 ， 小 道士 一 一 对 应 ， 有 条 有 理 。 小 道士 
也 专门 给 自己 在 每 个 库 区 中 预 留 了 儿 间 房 ， 用 于 存放 他 那 一 本 本 厚 厚 的 记录 。 老 道 一 旁 看 
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了 ， 频 频 点 头 ，“ 嗯 ， 前 途 无 量 ， 前 途 无 量 啊 ， 啊 哈哈 哈哈 哈 ! ! ! ” 

过 了 几 天 ， 张 真人 又 来 探查 。 此 时 只 见 有 个 人 一 下 送 来 10000 斤 大 米 。 小 道 长 开始 只 
是 表示 吃惊 ， 并 没有 多 想 ， 仍 旧 按照 老 办 法 ， 记 录 “ 大 米 10000 斤 ， 房 间 4 一 4096”。 接 
着 又 来 了 一 位 要 存放 65535 斤 小 麦 的 。 这 下 可 苦 了 小 道士 了 ， 把 他 累 得 够 哈 。 随 着 全 国 粮 
食 大 丰收 ， 存 粮 数量 动 辑 上 万 斤 。 这 让 小 道士 苦 不 堪 言 ， 他 决定 思考 一 种 解决 方法 。 第 二 
天 ， 小 道 长 将 每 8 个 房间 划分 为 一 个 逻辑 房间 ， 称 作 “ 徐 ”。 第 一 簇 对 应 房间 1、2、3、4、 
5、6、7、8， 第 二 艇 对 应 房间 9、10、11、12、13、14、15、16。 依 此 类 推 。 这 样 道士 记 
录 的 数字 量 就 是 原来 的 八 分 之 一 了 。 比 如 4000 斤 粮食 ， 只 需 记 录 “ 艇 1” 就 可 以 了 。 老 道 
心中 暗 想 ，“ 咽 ,不错 ， 我 没 看 错 人 ! ! ”这 一 年 ， 因 为 大 丰收 ， 粮 食 降价 了 。 农 民 丰 产 
不 丰收 ， 很 多 农民 打算 第 二 年 不 种 粮 了 ， 改 做 其 他 小 生意 。 


57.3 ”无孔不入 一 一 不 浪费 一 点 空间 


第 二 年 ， 果 然 不 出 张 老道 所 料 ， 全 国 粮食 大 减产 ， 价 格 飞涨 ， 全 面 进入 恐慌 阶段 。 张 
真人 悬 壶 济世 ， 开 仓 放 粮 ， 平 息 物 价 。 这 一 举动 受到 了 老百姓 的 称赞 和 感激 ， 但 也 招致 了 
-小 部 分 奸商 的 忌 恨 。 

放 粮 消息 宣布 之 后 ， 山 下 老百姓 都 排队 来 武当 买 粮 。 这 可 忙 坏 了 理 货 员 道 士 ， 连 续 几 
天 没 休息 ， 给 老百姓 取 粮 食 。 一 个 月 之 后 ， 武 当 粮 库存 粮 已 经 所 剩 无 几 ， 张 老道 和 众 院 道 
士 每 天 省 吃 俭 用 ， 为 的 是 给 老百姓 多 留 点 存粮 。 

大 坝 慌 的 一 年 ， 终 于 歼 过 去 了 。 农 民 一 看 粮食 价格 那么 高 ， 第 三 年 又 都 准备 种 粮 了 。 
不 出 意料 ， 这 一 年 粮食 又 得 丰收 ! 张 老 道 提前 考虑 他 的 粮 库 在 这 一 年 的 使 用 问题 了 ， 他 叫 
来 理 货 员 道士 ， 让 他 回去 考虑 一 个 问题 : 经 过 了 去 年 的 折腾 ， 仓 库 中 的 存货 是 零 零 散 散 ， 
乱 七 八 粮 ， 为 了 准备 这 一 年 大 量 粮食 涌 入 仓库 ， 必 须 解 决 这 个 问题 ， 让 他 回去 考虑 解决 办 
法 。 其 实 张 老道 早 就 在 心里 盘算 出 了 解决 办 法 了 。 

第 二 天 ， 理 货 员 趁 人 少 的 时 候 ， 就 命令 库 管 员 : “请 帮 我 把 房间 xxxxx 的 货物 移动 到 房 
间 xxxx 处 ， 请 帮 有 我 把 房间 xxx. 货物 移动 到 房间 xxx 处 ……”。 

这 可 累 坏 了 库 管 员 。 但 是 经 过 儿 个 时 辰 的 整理 之 后 ， 仓 库 里 的 货物 重新 变 得 连续 ， 
井 有 条 。 老 道 称赞 说 : “不 错 ! 继续 努力 ! ”。 

这 天 晚上 ， 小 道 长 也 没 闲 着 ， 他 继续 思考 ， 今 天 是 有 时 间 整 理 货物 ， 如 果 一 旦 过 到 忙 
的 时 候 ， 没 有 时 间 整 理 货物 ， 那 麻烦 就 大 了 ， 得 想 一 种 一 劳 永 逸 的 办 法 。 有 些 人 来 送 完 粮 
食 之 后 ， 第 二 天 就 来 取 了 ， 这 个 真是 头疼 了 。 因 为 我 都 按照 顺序 将 每 个 人 的 粮食 连续 存放 
到 各 个 租 中 ， 他 一 下 取 走 了 ， 对 应 的 簇 就 空 了 。 如 果 再 有 人 来 ， 他 带 的 货物 数量 如 果 这 个 
空 簇 能 存 下 还 好 ， 可 以 接着 用 。 如 果 存 不 下 呢 ? 还 得 找 新 的 连续 空 禾 来 存放 。 如 果 这 种 情 
况 出 现 太 多 ， 那 么 整个 仓库 就 是 千 疮 百 孔 ， 大 的 放 不 下 ， 小 的 放下 了 又 浪费 空间 。……: 真 
头疼 。 他 冥 思 苦 想 ， 最 后 终于 想 出 一 个 办 法 。 

一 早 仓库 还 没有 开门 的 时 候 ， 小 道 长 就 来 了 ， 他 把 所 有 记录 本 都 拿 了 出 来 ， 进 行 修改 。 
他 原本 对 每 个 来 送 货 的 人 ， 都 只 用 一 条 简单 记录 来 描述 它 ， 描 述 中 包含 3 个 字段 ， 名称 、 
大 小 和 存放 位 置 。 比 如 冬瓜 10000 Jr $E 1 一 3。 此 时 仓库 中 ， 虽 然 总 空余 空间 远 远 大 于 
10000 斤 的 量 ， 但 是 已 经 没有 能 连续 地 放 入 10000 斤 大 小 的 簇 空 间 ， 那 么 这 个 货物 就 不 能 
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被 放 入 仓库 ， 而 这 是 不 能 容忍 的 一 种 浪费 。 有 一 个 办 法 ， 就 是 上 面 说 过 的 ， 找 空闲 时 间 来 
整理 仓库 ， 整 理 出 连续 的 空间 来 。 这 次 小 道 长 想 出 了 另 一 个 方法 ， 就 是 将 货物 分 开 存 放 ， 


货物 。 那 么 就 可 


并 不 一 定 非 要 连续 存放 在 仓库 。 因 为 仓库 已 经 被 逻辑 分 割 成 以 簇 (4 个 房间 ) 为 最 小 单位 存放 
[以 存在 类 似 这 样 的 描述 方式 :冬瓜 10000 Jr. H 2、.6、19.。 也 就 是 说 这 10000 


斤 的 冬瓜 是 分 别 被 按 顺序 存放 在 仓库 的 2 7. 6 ATP 19 号 簇 中 的 。 取 出 的 时 候 ， 需 要 


先 去 2 号 取出 货物 ， 再 跨 过 3 RE 6 号 ， 再 跨 过 13 个 簇 去 19 5. Ub 


人 。 这 样 确实 慢 了 点 ， 但 是 完美 地 解决 了 空间 浪费 的 问题 。 


5.7.4 


一 箭 双 周一 一 一 张 图 解决 两 个 难题 


ti 后 再 交 给 提货 


粮食 大 丰收 果然 又 被 张 老道 猜 中 了 ， 这 次 小 道 长 是 应 对 自如 ， 一 丝 不 乱 。 老 道 喷 喷 称 
赞 ! 但 是 老道 却 从 小 道士 的 记录 中 ， 又 看 出 了 一 些 问题 ， 他 告诉 小 道士 ， 要 继续 思考 更 好 


的 解决 办 法 。 小 道士 心 很 灵 ， 他 知道 这 个 方法 确实 解决 了 问题 ， 但 是 有 缺陷 ， 会 有 后 是 


只 不 过 现在 的 环境 并 没有 显示 出 来 。 这 天 晚上 ， 小 道 在 仓库 睡觉 ,没有 回去 。 


看 着 他 那些 记录 ， 只 见 上 面 一 条 一 条 ， 一 行 一 行 的 ， 却 也 比较 有 条 理 。 但 是 仔 
细 一 看 发 现 ， 每 一 条 记录 的 最 后 一 个 字段 ， 也 就 是 描述 货物 存放 在 哪些 答 的 那 


SH 个 字段 ， 非 常 凌乱 ， 因 为 每 个 人 送 来 的 货物 数量 不 一 样 ， 那 么 就 注定 这 个 字段 


长 短 不 一 ， 显 得 非常 乱 。 

现在 记录 不 是 很 多 ， 记 录 一 旦 增多 ， 每 次 查询 的 时 候 就 很 不 好 办 。 而 且 要 找 一 
个 未 被 占用 的 徐 ， 需要 把 所 有 已 经 被 占用 的 全 找 出 来 ， 然 后 才 去 选择 一 个 未 被 
EA, 分 配给 新 的 货物 存放 。 这 个 过 程 是 非常 耗 时 间 的 ,货物 少 了 还 可 以 ， 
货物 一 多 ， 那 可 就 费劲 了 。“ 嗯 ， 张 真人 让 我 继续 思考 ， 确 实 是 有 道理 的 ， 这 
两 个 隐患 ， 确 实 是 致命 的 ， 尤 其 是 第 二 个 。 得 继续 找 新 方法 ”。 

小 道士 继续 思考 。 第 一 个 问题 ， 要 想 解决 长 短 不 一 的 毛病 ， 最 简单 的 就 是 给 他 
一 个 定 长 的 描述 字 ， 这 仿佛 是 不 可 能 的 ， 有 的 需要 1 个 徐 就 够 了 ， 有 的 却 需要 
10 个 甚至 100 个 ， 如 果 把 这 需要 10 个 徐 的 和 需要 1 个 徐 的 ， 都 用 1 ISAAC AS 
述 ， 那 么 确实 非常 漂亮 了 ， 记 录 会 非常 工整。 


想到 这 里 ， 小 道士 累 了 ， 想 出 去 走 走 。 他 溜达 到 一 个 路 口 ， 看 见 路 口上 有 路 标牌 ， 
“去 会 客厅 请 走 左边 ， 去 习 武 观 请 走 右 边 。” 小 道士 顺 着 路 标 指 向 ， 走 了 右边 ， 
然后 又 遇 到 一 个 路 标 : “去 习 武 观 请 走 左边 ， 下 山 请 走 右 边 。” 道 士 走 了 左边 ， 最 终 来 到 
了 习 武 观 。 他 看 着 习 武 观 正中 央 的 那个 醒目 的 “ 道 ” 字 ， 忽 然 眼前 一 亮 ! 

他 迅速 原 路 返回 到 粮 库 , 拿 出 记录 本 , 将 其 中 一 条 记录 改 为 : “冬瓜 10000 JT T1". 
每 条 记录 都 改 成 这 种 形式 ， 也 就 是 只 描述 这 个 货物 占用 的 第 一 个 簇 的 号 码 ， 这 样 完 美 解决 


面 写 着 ; 


了 记录 长 短 不 一 的 问题 ， 那 么 后 续 的 簇 呢 ?” 只 知道 首 簇 ， 剩余 的 不 锣 
货物 取出 。 


B 


nz) 


上 


道 ， 一 样 不 能 全 部 把 


所 以 小 道士 参照 路 标的 形式 ， 既 然 知道 了 首 驴 号 ， 那 么 如 果 找 到 首 艇 ,再 在 首 艇 处 作 


一 个 标记 ， 写 明 下 一 个 簇 是 多 少 号 ， 然 后 找到 下 一 个 簇 取 货 


到 下 下 个 簇 处 接着 取 货 ， 依 此 类 推 ， 如果 本 簇 就 是 这 批 货物 的 最 后 一 禾 ， 那么 就 标识 


然后 再 参照 这 个 徐 处 的 路 标 ， 
“ 结 
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束 ， 无 下 一 马 ”。 比 如 : “冬瓜 10000 斤 ?i$x 1” 这 个 例子 ， 先 把 4096 斤 冬瓜 放 到 徐 1 
中 ， 然 后 在 复工 的 门 上 贴 上 一 个 标签 : “ 徐 10”， 这 就 表明 下 一 簇 是 10 54x. HEB) 10 
号 艇 中 存 入 4096 斤 冬瓜 ， 此 时 还 剩 808 斤 冬瓜 没 放 入 ， 还 需要 一 个 路 标 ， 于 是 在 10 5 
的 门 上 再 贴 一 个 标签 : “90 号 ”。 然 后 去 90 号 艇 放 入 剩 下 的 808 Jr JR. 

第 二 天 ， 张 老道 继续 来 视察 。 老 道 一 看 他 的 记录 ， 不 由 地 一 惊 ! “一 个 晚上 就 想到 了 
这 种 绝妙 方法 。 咽 ， 此 人 大 有 前 途 ! ”老道 频频 点 头 称 赞 。 然 后 老道 进 仓库 查看 ， 一 看 有 
些 徐 的 门 上 ， 贴 着 标签 ， 老 道 立即 明白 了 小 道 长 的 做 法 ， 和 小 道 说 : “孩子 ， 不错， 但 是 
还 需要 再 改进 ! ” 
小 道 心里 盘算 ，“ 咽 ， 这 个 方法 是 解决 了 第 一 个 问题 ， 但 是 每 个 簇 门 上 都 贴 一 个 标签 ， 
这 样 是 不 太 像样 。 而 且 寻 找 未 被 占用 的 簇 的 效率 还 是 那么 低 ， 还 是 需要 把 所 有 已 经 占用 的 
簇 找 出 来 ， 再 比 对 选 出 没有 使 用 的 空 秘 。 而 且 我 这 么 一 弄 ， 找 空 饼 的 效率 比 原来 还 差 了 ， 
因为 原来 已 经 使 用 的 簇 都 会 被 记录 在 货物 描述 中 的 字段 中 ， 现 在 把 这 个 字段 缩减 成 一 个 字 
了 ， 这 样 每 次 找寻 的 时 候 ， 还 得 去 仓库 中 实际 一 个 门 一 个 门 地 去 抄 下 已 经 使 用 的 艇 ， 还 不 
如 直接 在 本 子 上 找 来 的 快 。 这 个 问题 得 解决 ! ” 


HH 四 既然 要 拿 掉 贴 在 门 上 的 标签 ， 那么 就 必须 找 另 外 一 个 地 方 存放 标签 ， 所 以 只 能 
| 存放 到 我 的 记录 本 上 。 可 是 各 个 化 的 路 标 我 都 记录 在 本 子 上 ， 用 一 个 什么 数据 
9 结构 好 呢 ? 货 物 描 述 那 三 个 字段 肯定 不 能 再 修改 了 ， 那 样 已 经 很 完美 了 ， 不 能 
破坏 它 。 那 么 就 需要 再 自己 定义 一 个 结构 来 存放 这 些 路 标 之 间 的 关系 ， 而 且 每 
个 货物 的 路 标 还 不 能 混淆 ， 混 了 就 惨 了 。 他 在 纸 上 写 写 画 画 ， 不 知 不 觉 把 整个 
仓库 的 徐 画 出 来 了 ， 从 第 一 个 狂 ， 到 最 后 一 个 狂 ， 都 用 一 个 方 格 标 识 ， 然 后 他 
参照 “冬瓜 ，10000 T. EAR 1” 这 个 例子 ， 下 一 徐 是 化 10， 那 么 他 在 包 1 的 
格子 上 写 上 了 “化 10”， 然 后 他 找到 第 10 个 格子 ， 也 就 是 代表 和 儿 10 的 格子 ， 
JE4K 10 46-1 €. a5 E. "4& 900”， 也 就 是 10 号 禾 的 下 一 化 路 标 。 然 后 继续 找到 
90 号 狂 ， 此 时 他 在 这 个 格子 里 写 上 “结束 ”。 接 着 他 又 举 了 几 个 例子 ,分别 画 
了 上 去 。 就 这 么 逐渐 睡 着 了 。 


第 二 天 早晨 ， 小 道士 迷 迷 糊糊 地 起 来 了 ， 只 见 张 道 长 已 经 在 他 的 面前 ， 带 着 赞许 的 笑 
容 。“ 孩 子 ， 你 累 了 ， 不 错 不 错 ， 你 终于 把 所 有 问题 都 解决 了 啊 ! ” 张 老 道 摸 着 小 道士 的 
脑袋 ， 称 赞 地 说 道 。 小 道士 还 不 知道 是 怎么 回 事 呢 ， 他 告诉 张 老道 说 ， 他 还 没 想 出 来 呢 。 
老道 大 笑 说 : “哈哈 哈哈 ， 你 看 看 你 画 在 纸 上 的 图 ， 这 不 是 已 经 解决 了 么 ? 哈哈 哈哈 哈 。” 
说 完 老 道 扬 长 而 去 。 
小 道士 一 头 雾 水 ,看 着 那 张 画 ， 这 才 想 起 了 昨 晚 的 思考 。“ 对 啊 ， 这 张 图 不 就 行 了 么 ? 
这 就 是 我 所 要 找 的 数据 结构 啊 ! ”接着 ， 小 道士 把 图 重新 画 了 一 张 ， 整整 地 夹 在 了 记 
录 本 里 面 。 这 时 ， 来 了 一 个 取 货 的 人 ， 他 告诉 小 道士 说 : “二 库 区 ， 南 瓜 ，10000 斤 ”。 
道士 说 : “ 稍 等 ”。 然 后 立即 查询 二 库 区 的 记录 本 ， 找 到 南瓜 的 记录 ， 发 现 首 艇 是 128。 然 
后 立即 到 那 张 图 上 找到 第 128 号 艇 所 在 的 格子 ， 发 现 上 面 写 的 是 “ 徐 168”。 继 续 找到 第 
168 号 格子 ， 上 面 写 的 是 “ 徐 2006”。 立即 找到 第 2006 个 格子 , 只 见 上 面 写 的 是 “结束 ”。 
然后 他 通知 库 管 员 “ 请 帮 有 我 将 第 128、168、2006 三 个 簇 的 货物 提取 出 来 给 我 ”。 不 一 会 
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紧 接 着 ， 又 来 了 一 MER 的 人 ， 他 有 西瓜 500 斤 要 存放 到 1 库 区 。 小 道士 立即 查看 那 
张 图 ， 一 目 了 然 。 只 要 格子 上 没有 写字 的 就 是 空 徐 ， 就 可 以 用 来 存放 货物 。 所 以 道士 立即 
找到 一 个 室 着 的 50 号 簇 来 存放 这 500 斤 西瓜 存放 完毕 之 后 ,在 对 应 的 这 个 格子 上 写 上 < 和 结 
R”, KA 500 斤 的 数量 一 个 房间 就 够 了 ， 更 不 用 说 一 个 徐 了 (最 多 8 个 房间 )。 接 着 也 在 1 
库 区 的 记录 本 上 增加 一 条 记录 “西瓜 500 斤 HI 50" . 

道士 发 现 ， 第 二 个 问题 也 就 是 查找 未 被 使 用 的 徐 的 问题 ， 自 从 有 了 这 张 图 ， 就 自然 解 
决 了 。 道 士 非常 兴奋 ， 同 时 也 佩服 张 真人 ， 是 他 引导 着 自己 一 步 一 步 解决 问题 的 。 


5.7.5 ”宽容 似 海 一 一 设计 也 要 像 心胸 一 样 宽 

随 着 仓库 业务 的 不 断 成 熟 ， 小 道士 的 技能 越 来 越 熟 练 ， 他 开始 考虑 描述 货物 的 三 个 字 
Pr: 名 称 、 数 量 、 存 放 的 第 一 个 徐 。 随 着 国民 生产 力 水 平 不 断 提高 ， 各 种 层出不穷 的 产品 
被 生产 出 来 ， 它 们 有 些 具 有 一 些 奇特 的 属性 。 所 以 小 道士 准备 增加 字段 来 表述 一 件 货物 更 
多 的 属性 ， 比 如 送 货 时 间 、 只 读 、 隐 藏 等 各 种 花哨 属性 。 同 时 ， 那 张 图 也 不 能 满足 要 求 了 ， 
因为 随 着 生产 力 发 展 ， 仓 库 每 平方 米 造价 越 来 越 低 ， 武 当 决 定 扩 大 仓库 容量 。 这 样 仓库 中 
所 包含 的 簇 数 量 就 大 大 增加 了 ， 甚 至 成 几何 数量 级 增长 ， 所 以 艇 号码 越 来 越 大 ， 其 至 超过 
了 亿 。 要 记录 这 么 多 位 的 数字 ， 本 来 那个 小 格子 就 写 不 开 了 ， 所 以 需要 增 大 格子 的 宽度 ， 
以 使 能 写 下 更 多 的 数字 位 数 。 以 前 每 个 格子 是 2 字 节 (16 位 ] 长 度 , 现在 扩展 到 了 4 字 节 (32 
位 )。 而 据 传 江湖 上 另 一 位 大 侠 已 经 将 格子 的 宽度 扩展 到 了 128 位 。 

要 问 这 位 小 道 长 姓 字 名 谁 ” 因 为 当时 张 真 人 收留 他 的 时 候 ， 发 现 他 身 板 有 点 软 ， 不 适 

合 练 武 。 但 思维 敏捷 ， 适 合 练 心 法 ， 所 以 给 他 一 个 道 号 叫做 微软 。 

就 这 样 ， 仓 库 又 运作 了 2 年 。 


5.7.6 老将 出 马 一 一 权威 发 布 


仓库 存储 容量 不 断 增 加 ， 仓 库 管 理 技术 方面 却 并 没有 什么 进步 ， 还 是 沿袭 2 年 前 那 一 
套 运 作 模式 。 这 显然 已 经 不 适应 现代 仓库 了 ， SUR RON. DENEN Ee 
系列 的 问题 。 张 真人 决定 跟 上 时 代 ， 要 研究 出 一 套 新 的 仓库 运作 模式 ， 并 且 定 义 出 一 个 规 
范 ， 让 全 天 下 的 仓库 都 沿袭 这 个 规范 来 运作 。 张 老道 先 仔 细 考 察 了 微软 道士 的 运作 模式 ， 
然后 根据 现代 仓库 管理 的 特点 ， 提 出 了 一 系列 的 解决 方案 。 

现代 仓库 管理 要 求 入 库 出 库 速 度 快 ， 由 于 在 仓库 硬件 方面 提高 很 快 ， 有 了 更 加 新 式 的 
传送 带 和 机 器 人 等 机 器 ， 所 以 大 大 提高 了 操作 简化 度 ， 减 轻 了 库 管 员 的 负担 。 库 管 员 只 需 
要 阅读 机 器 的 随机 手册 (驱动 程序 ) 便 可 以 轻松 地 完成 操作 。 与 此 同时 ， 对 于 理 货 员 这 块 技术 
并 没有 什么 新 的 突破 ， 因 为 理 货 这 块 主要 靠 好 的 算法 ， 并 不 需要 硬件 支持 ， 除 了 那些 记录 
本 之 外 。 而 从 仓库 中 取出 记录 本 的 速度 ， 由 于 库 管 员 操作 迅速 ， 所 以 也 不 在 话 下 。 关 键 就 
看 理 货 算法 了 。 这 是 任何 硬件 都 不 能 解决 的 问题 。 

首先 张 老道 通过 观察 、 记 录 ， 发 现 一 般 货物 就 算是 存放 到 不 连续 的 簇 中 ， 这 些 簇 往往 
也 是 局 部 连续 的 ， 比 如 1、2、3、5、6、7、100、101、102， 其 中 1、2、3 就 是 局 部 连续 ， 
5、6、7 也 是 ，100、101、102 也 是 。 而 不 太 可 能 出 现 一 个 货物 占用 了 1. 56. 168. 2008 
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簇 这 种 情况 。 如 果 此 时 不 是 一 个 簇 一 个 簇 地 去 找 路 标 ， 而 是 一 段 一 段 地 去 找 ， 这 样 会 节约 
很 多 时 间 和 精力 。 比 如 簇 段 1 一 3， 簇 段 5 一 7， 簇 段 100 一 102。 这 样 就 大 大 简化 了 路 标 。 
还 有 其 他 的 一 些 改进 方式 , 如 直接 将 一 些小 货物 存放 到 它们 描述 记录 中 ( 驻 留 文件 )。 只 有 描 
述 记 录 中 放 不 下 时 ， 才 到 仓库 其 他 区 域 找 一 些 簇 来 存放 ， 然 后 记录 这 些 簇 段 。 
微软 道士 将 他 的 记录 本 上 的 信息 ， 称 为 Metadata， 元 数据 。 也 就 是 用 来 描述 其 他 数据 
是 怎么 组 织 存 放 的 一 种 数据 。 如 果 记 录 本 丢失 ， 那 么 纵然 仓库 中 货物 完好 无 损 ， 也 无 法 取 
出 。 因 为 已 经 不 知道 货物 的 组 织 结构 了 。 

张 真人 最 后 把 微软 道士 实现 的 一 共 三 种 仓库 运作 管理 模式 ， 分 别 叫 做 FAT16. FAT32 
和 NTFS， 并 取 名 为 小 道藏 龙 。 


5.7.7 一 统 江 湖 一 一 所 有 操作 系统 都 在 用 


后 来 张 老道 把 这 套 管理 模 式 移植 到 了 磁盘 管理 上 , 也 就 是 万 动武 林 的 所 谓 “ 文 件 系统 ”。 
对 应 仓库 来 说 ， 送 货 人 送 来 的 每 一 件 货物 都 称 作 “文件 ”。 取 货 时 ， 只 要 告诉 理 货 员 文 件 
名 称 、 所 要 取出 的 长 度 及 其 他 一 些 选项 ， 那 么 理 货 员 就 可 以 从 仓库 中 取出 这 些 数据 。 

在 一 个 没有 文件 系统 的 计算 机 上 ， 如 果 一 个 程序 要 向 磁盘 上 存储 一 些 自己 的 数据 ， 那 
么 这 个 程序 只 能 自己 调用 磁盘 控制 器 驱动 (无 VM 的 情况 下 ), 或 者 调用 VM 提供 的 接口 ， 对 
磁盘 写 数据 。 而 写 完 数据 后 ， 很 有 可 能 被 其 他 程序 的 数据 覆盖 掉 。 引 入 文件 系统 之 后 ， 各 
个 程序 之 间 都 通过 文件 系统 接口 访问 磁盘 ， 所 有 被 写 入 的 数据 都 称 为 一 个 文件 ， 有 着 自己 
的 名 字 ， 是 一 个 实体 。 而 且 其 他 程序 写 入 的 数据 ， 不 会 将 其 他 人 的 文件 数据 覆盖 掉 ， 因 为 
文件 系统 会 计算 并 保障 这 一 点 。 

除 此 之 外 ,不 仅 张 真 人 的 NTFS 文件 系统 取得 了 巨大 的 成 功 ， 适 应 了 现代 的 要 求 。 与 此 
同时 ， 少 林 的 雷 牛 方丈 也 创造 出 了 其 他 的 文件 系统 ， 比 如 EXT 一 代 、 二 代 、 三 代 和 JFS 等 
文件 系统 。 一 时 间 文 件 系统 思 想 的 光环 是 照 炮 江 湖 ! ! 


5.8 文件 系统 中 的 10 方式 


我 们 来 看 一 下 ， 有 了 文件 系统 之 后 ， 整 个 系统 是 个 什么 架构 。 
图 5.75 Jy Windows 系统 的 10 简化 流程 图 。 
图 中 的 I0 Manager 是 操作 系统 内 核 的 一 个 模块 ， 专 门 用 来 管理 I 0， 并 协调 文件 系统 、 
卷 、 磁 盘 驱 动 程序 各 个 模块 之 间 的 运作 。 E F 
11 某 时 刻 ， 某 应 用 程序 调用 文件 系统 接口 ， 准备 写 入 某 文 件 从 菜 个 字 节 开始 的 着 干 
字 节 。 
2] 10 Manager 最 终 将 这 个 请 求 发 送 给 文件 系统 模块 。 
31] 文件 系统 将 某 个 文件 对 应 的 逻辑 偏 移 映 射 成 卷 的 LBA 地 址 偏 移 。 
4] 文件 系统 向 10 Manager 请 求 调用 卷 管理 软件 模块 的 接口 。 
5] 卷 管理 软件 将 卷 对 应 的 LBA 地 址 偏 移 翻 译 映射 成 实际 物理 磁盘 对 应 的 LBA 地 址 偏 
移 ， 并 请 求 调用 磁盘 控制 器 驱动 程序 。 
61 10 Manager 向 磁盘 控制 器 驱动 程序 请 求 将 对 应 LBA 地 址 段 的 数据 从 内 存 写 入 某 块 
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物理 磁盘 。 
Environment 
ubsystem 
or DLL 
User mode 
Kernel mode 


QD — NtWiiteFile(file handle, char buffer) 


| System services 


@ Write data at specified 
e 


@ Translate file-relative byte 
offset into volume-relative 
byte offset and call next 
driver (via I/O manager) 


四 can driver to wnte data at 
elative byte offset 


@ Call next driver to write 
date to dis k 3 at diske 
relative byte offset 


QD. Translate disk-relative byte offset into physical 
location on disk 3 and transter data 


[E575 windows 系统 的 10 流程 图 

文件 系统 的 IO 包括 同步 IO、 异步 1O、 阻 塞 / 非 阻塞 IO 和 Direct IO 

同步 10: 同步 10 是 指 程序 的 某 一 个 进程 或 者 线程 ， 如 果 某 时 刻 调用 了 同步 10 接口 ， 
则 YO 请 求 发 出 后 ， 这 个 进程 或 者 线程 必须 等 待 10 路 径 上 的 下 位 程序 返回 的 信号 〈 不 管 是 
成 功 收 到 数据 的 信号 还 是 失败 的 信号 ) ， 如 果 不 能 立刻 收 到 下 位 的 信号 。 则 一 直 处 于 等 待 
状态 ， 不 继续 执行 后 续 的 代码 ， 被 操作 系统 挂 起 ， 操 作 系统 继续 执行 其 他 的 进程 或 者 线程 。 
而 如 果 在 这 期 间 ， 倘 车 I0 的 下 位 程序 尚未 得 到 上 位 程序 请 求 的 数据 ， 此 时 IO 路 径 上 
的 下 位 程序 又 可 以 选择 两 种 动作 方式 ， 第 一 是 如 果 暂 时 没有 得 到 上 位 程序 请 求 的 数据 ， 则 
返回 通知 通告 上 位 程序 数据 未 收 到 ， 而 上 位 程序 此 时 便 可 以 继续 执行 ， 第 二 种 动作 则 是 下 
位 程序 也 等 待 它 自己 的 下 位 程序 来 返回 数据 ， 直 到 数据 成 功 返回 ， 才 将 数据 送 给 上 位 程序 
前 者 就 是 非 阻塞 10， 后 者 就 是 阻塞 10 方式 。 
同步 + 阻塞 10 是 彻底 的 堵 死 状态 ， 这 种 情况 下 ， 除 非 这 个 程序 是 多 线程 程序 ， 和 否则 程 
序 就 此 挂 死 ， 失 去 响应 。 同 理 ， 异 步 + 非 阻塞 的 10 方式 则 是 最 松 耦 合 的 IO 方式。 
异步 10: 异步 10 请 求 发 出 后 ,操作 系统 会 继续 执行 本 线程 或 者 进程 中 后 续 的 代码 ， 直 
到 时 间 片 到 时 或 者 因 其 他 原因 被 挂 起 。 异 步 10 模式 下 ， 应 用 程序 的 响应 速度 不 会 受 10 瓶 
颈 的 影响 ， 即 使 这 个 IO 很 长 时 间 没 有 完成 。 虽 然 应 用 程序 得 不 到 它 要 的 数据 ， 但 不 会 影响 
其 他 功能 的 执行 。 

基于 这 个 结果 ， 很 多 数据 库 在 异步 10 的 情况 下 ， 都 会 将 负责 把 缓存 Flush 到 磁盘 的 进 
程 (Oracle 中 这 个 进程 为 DBWR 进程 ) 数 量 设置 成 比较 低 的 数值 ， 甚 至 为 1。 因 为 在 异步 10 
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大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


的 情况 下 ，Flush 进程 不 必 挂 起 以 等 待 10 完成 , 所 以 即使 使 用 很 多 的 Flush 进程 ， 也 与 使 
1 个 进程 效果 差不多 。 

异步 10 和 非 阻 塞 IO 的 另 一 个 好 处 是 文件 系统 不 必 立 刻 返回 数据 ， 所 以 可 以 对 上 层 
求 的 I0 进行 优化 排队 处 理 ， 或 者 批量 向 下 层 请 求 10， 这 样 就 大 大 提升 了 系统 性 能 。 

Direct 10: 文件 系统 都 有 自己 的 缓存 机 制 ， 增 加 缓存 就 是 为 了 使 性 能 得 到 优化 。 而 
些 应 用 程序 ， 比 如 数据 库 程序 ， 它 们 有 自己 的 缓存 ，10 在 发 出 之 前 已 经 经 过 自己 的 缓存 
法 优化 过 了 ， 如 果 请 求 10 到 达 文件 系统 之 后 ， 又 被 缓存 起 来 进行 额外 的 优化 ， 就 是 多 此 
举 了 ， 既 浪费 了 时 间 ， 又 降低 了 性 能 。 对 于 文件 系统 返回 的 数据 ， 同 样 也 有 这 个 多 余 的 


请 


有 
算 


动 


作 。 所 以 文件 系统 提供 了 另外 的 一 种 接口 ， 就 是 Direct 10 接口 。 调 用 这 种 接口 的 程序 ， 其 
10 请 求 、 数 据 请 求 以 及 回 送 的 数据 将 都 不 被 文件 系统 缓存 ， 而 是 直接 进入 应 用 程序 的 缓存 ， 


这 样 就 提升 了 性 能 。 此 外 ， 在 系统 路 径 上 任何 一 处 引入 缓存 ， 如 果 是 Write Back 模式 ， 
将 带 来 数据 一 致 性 的 问题 。Direct 10 绕 过 了 文件 系统 的 缓存 ， 所 以 降低 了 数据 不 一 至 
风险 。 
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两 三 块 磁盘 做 RAID 0 或 |， 四 五 块 磁盘 做 个 RAID 3、4、5 是 小 事 一 柱 ， 不 过 太 
没 魄力 。 要 玩 就 弄 个 几 十 块 盘 ， 那 才 过 瘾 。 这 不 ， 有 人 发 明了 专门 装 这 些 磁盘 的 大 柜 
子 ， 我 们 这 就 去 看 看 这 柜子 是 怎么 回 事 儿 吧 。 
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退隐 江湖 一 一 太 累 了 ， 该 软 软 了 

自从 张 真人 创立 了 降 龙 三 掌 之 后 ， 江 湖 各 门 各 派 争 相 修 炼 ， 商 人 不 断 推出 基于 降 龙 党 
的 新 商品 。 江 湖上 浮躁 之 气 再 次 袭 来 ， 很 少 有 人 去 钻研 底层 功夫 了 ， 都 是 拿 来 就 用 ， 不 思 
进取 。 几 十 年 过 去 了 ， 张 老道 已 经 成 了 头发 苍白 的 老人 。 

这 天 晚上 ， 人 少 星 稀 。 唯 独 天 上 的 北斗 七 星 ， 光 芒 还 是 那么 灿烂 ,仿佛 已 逝去 百年 的 
七 星 大 侠 ， 还 在 天 上 苦 苦 钻研 ? 

张 真 人 如 今 也 已 经 是 白 发 苍苍 ， 可 是 知己 已 不 在 。 一 百年 来 ， 江 湖上 为 了 利益 你 争 我 
抢 ， 反目 成 仇 ， 打 打 杀 杀 。 鸣 呼 哉 ! ! ! ! 难道 这 个 江湖 真 要 从 此 衰败 么 ? 张 老道 失望 
至 极 。 


闻 道 
尘世 洱 华 迷人 有 最， 
梦 中 情境 亦 非 真 。 
ind dud cT, 
世间 何 处 有 高 人 ? 
第 二 天 ， 张 真人 对 外 宣布 ， 他 从 此 退隐 江湖 ， 不 再 参与 江湖 事 。 朋 时间， 整个 江湖 就 
像 地 震 了 一 样 ， 人 们 没有 了 主心骨 ， 都 不 知道 该 干什么 好 了 。 打 打 杀 杀 的 也 不 打 了 ， 商 人 
也 没 得 吹 了 。 很 多 商人 纷纷 上 武当 来 游说 张 真人 ， 让 他 出 山 ， 包 荣华 富贵 ， 都 被 张 真人 一 
一 回绝 了 。 江 湖 又 恢复 了 以 往 的 平静 ， 只 是 这 平静 似乎 预示 着 一 场 更 加 猛烈 的 暴风 雨 即将 
来 临 。 
前 仆 后 继 一 一 后 来 者 居 上 
话说 有 位 少年 ， 自 幼 好 钻研 和 寻根 问 底 ， 被 人 称 作 “ 隔 一 路 ”。 此 人 不 善于 口头 表达 ， 
不 会 忽悠 ， 但 是 如 果 世 界 只 剩 下 他 一 个 人 ， 那 么 他 便 会 爆发 出 神奇 的 力量 。 由 于 内 向 的 性 
格 ， 他 吃 了 不 少 亏 ， 但 他 依然 我 行 我 素 ， 并 不 在 乎 别人 的 议论 和 猜忌 甚至 是 旗 毁 。 这 位 少 
年 名 为 无 尽 。 他 实际 上 也 确实 是 无 所 月 鼠 ， 明 知 山 有 虎 ， 偏 向 虎 山行 ， 用 天 真 和 执著 去 
战 世俗 ， 跌 倒 了 大 不 了 重 来 。 
既然 选择 了 这 条 路 ， 就 要 把 它 走 完 。 孤独 和 压迫 给 了 他 巨大 的 动力 ， 每 天 晚上 都 在 刻 
学 习 。 他 学 习 10 大 法 和 磁盘 大 挪移 ， 学 习 七 星 北 斗 阵 和 降 龙 大 法 。 昌 然 他 并 没有 实践 过 
这 些 知识 ， 但 是 依然 有 一 股 力量 促使 他 不 断 的 学 习 钻研 。 


6.1 初 露 端倪 一 一 外 置 磁 盘 柜 应 用 探索 


无 忌 已 经 充分 掌握 了 前 人 留 下 的 心 法 口诀 。 在 不 知道 该 做 点 什么 的 时 候 ， 他 突然 有 了 
一 个 想法 。 虽 然 按照 七 星 大 侠 的 RAID 方式 ， 可 以 将 多 块 磁盘 做 成 逻辑 盘 , 但 是 普通 的 服务 
器 或 者 PC 机 箱 里 面 ， 也 就 安装 两 三 块 磁盘 ， 空 间 就 满 了 。 如 果 做 很 多 块 盘 的 RAID， 把 磁 
盘 都 放 到 机 箱 里 面 肯定 不 行 ， 得 想 个 办 法 来 让 机 器 可 以 带 多 块 磁盘 。 

REK, 拿 出 来 ， 全 部 都 掏 出 来 ! ”。 他 找 来 一 台 机 器 ， 装 了 一 块 Ultra 320 SCSI 卡 ， 
这 个 卡 只 有 一 个 通道 ， 可 以 连接 15 块 磁盘 。 但 是 15 块 盘 怎 么 放 入 一 个 机 箱 呢 ? 太 困 难 了 ， 
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所 以 必须 把 这 些 盘 放 到 机 箱 外 面 。 但 是 连 线 和 电源 问题 又 不 好 办 。 他 索性 找 来 一 个 箱子 ， 
把 所 有 磁盘 都 放 在 这 个 箱子 里 。 箱 子 有 独立 电源 和 散热 系统 ， 保 障 磁盘 的 稳定 运行 。 接 
方面 ， 内 部 其 实 就 是 一 条 SCSI 线 缆 ， 只 不 过 将 它 做 到 了 电路 板 上 ， 然 后 在 外 面 放 一 个 接口 ， 
这 个 接口 是 用 来 连接 主机 上 的 SCSI 卡 的 。 如 果 主 机 上 装 的 是 不 带 RAID 功能 的 SCSI 卡 ， 那 
么 加 电 之 后 ， 主 机 会 识别 到 磁盘 箱 中 的 所 有 磁盘 。 箱 子 中 有 多 少 磁盘 ， 在 OS 磁盘 管理 器 中 
就 会 显示 多 少 块 磁盘 。 如 果 主 机 上 安装 的 是 带 RAD 功能 的 SCSI 卡 ， 那 么 可 以 用 这 个 RAID 
卡 先 来 对 认 到 的 多 块 磁盘 做 一 下 RAID， 划 分 出 逻辑 盘 ， 这 时 OS 识别 到 的 就 是 逻辑 磁盘 ， 
而 不 会 认 到 箱子 中 的 物理 磁盘 。 

这 种 简单 的 磁盘 箱 如 图 6.1 所 示 ， 无 忌 给 它 取 了 个 学 名 ， 叫 做 “JBOD”， 也 就 是 Justa 
Bound Of Disks, “只 是 一 串 磁盘 ”， 这 个 描述 非常 形象 。 无 忌 立 即将 这 个 做 法 公布 了 出 去 ， 
没 想 到 大 受 欢迎 ， 一 时 间 各 个 厂家 争 相生 产 这 种 磁盘 柜 ， 在 市 场 上 卖 得 很 火 。 


acm 


3H 


Bl: JBOD 磁盘 阵列 示意 图 
6.2 精益求精 一 一 结合 RAID 卡 实现 外 置 磁盘 阵列 


Fg fede RAID 功能 做 到 磁盘 箱 中 ， 因 为 如 果 要 调整 RAID 的 话 ， 还 需要 重启 主 

机 等 ,会 影响 主机 应 用 。 如 果 做 到 了 磁盘 箱 中 ,那么 在 主机 上 就 不 需要 做 什么 ， 

S 只 要 在 磁盘 箱 中 做 完 之 后 连接 到 主机 ， 主 机 重启 之 后 或 者 不 用 重启 就 能 认 到 新 
逻辑 盘 了 。 


经 过 多 次 实验 ,终于 做 成 了 一 个 设备 。 少 年 把 这 种 自 带 RAID 控制 器 的 磁盘 箱 叫做 “ 磁 
盘 阵 列 ”。 自 此 在 江湖 上 有 了 一 个 不 成 文 的 规定 , 凡是 JBOD 都 叫做 磁盘 柜 ， 凡是 自 带 RAID 
控制 器 的 盘 柜 就 叫做 磁盘 阵列 或 者 盘 阵 。 盘 柜 和 盘 阵 ， 前 者 只 是 一 串 外 置 的 磁盘 ， 而 后 者 
Hif RAID 控制 器 。 图 6.2 所 示 是 JBOD 磁盘 柜 实物 图 。 

盘 阵 是 在 盘 柜 的 基础 上 ,将 内 部 的 磁盘 经 过 其 自 带 的 RAID 控制 器 的 分 分 合 合 ， 虚 拟 化 
成 逻辑 磁盘 ， 然 后 经 过 外 部 SCSI 接口 连接 到 主机 上 端的 SCSI 接口 。 此 时 ， 整 个 盘 阵 对 于 主 
机 来 说 ,就 是 主机 SCSI 总 线 上 的 一 个 或 者 多 个 设备 ， 具 有 一 个 或 者 多 个 SCS11D。 所 有 迪 辑 
磁盘 都 以 LUN 的 形式 呈现 给 主机 。 

如 图 6.3 所 示 ， 盘 阵 中 的 SCSI 控制 器 在 逻辑 上 有 两 个 部 分 , 右边 的 52 控制 器 连接 了 一 
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条 SCSI 总 线 ， 上 面 有 若干 磁盘 。 左 边 的 S1 控制 器 同样 也 连接 了 一 条 SCSI 总 线 ， 但 是 上 面 
只 有 两 个 设备 ， 一 个 就 是 主机 SCSI 控制 器 ， 另 一 个 就 是 它 自 己 。 


scsi 接 口 、 


Eje JBOD 磁盘 柜 实物 图 图 6.3_ 带 RAID 控制 器 的 磁盘 阵列 示意 图 
毫 无 疑问 ， 在 左边 的 SCSI ARE, ABE SCSI 控制 器 是 作为 Target 模式 ， 被 主机 SCSI 
控制 嚣 操控， 处 于 被 动 地 位 。 在 右边 的 SCs 总 线 上 ， 盘 阵 的 S2 控制 器 成 了 Initiator 模式 ， 
它 在 右边 总 线 上 占据 主动 权 ， 拥 有 最 高 优先 级 ， 而 各 个 磁盘 均 为 SCSI Target, ZF 
Initiator。 当 然 S1 和 S2 不 一 定 就 是 两 块 物理 上 分 开 的 芯片 ， 很 有 可 能 就 是 一 块 单独 的 芯片 
逻辑 的 分 成 两 个 部 分 。 甚 至 有 可 能 将 RAID 芯片 和 SCSI 控制 器 芯片 全 部 集成 到 一 个 大 芯片 中 。 
图 6.4 所 示 的 是 一 个 SATA 盘 阵 控制 器 的 主板 示意 图 。 


图 6.5 所 示 的 是 一 个 小 型 盘 阵 控制 器 的 内 部 实物 图 。 
图 6.6 所 示 的 是 一 台 盘 阵 的 磁盘 插 横 实物 图 。 
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图 6.5 一 个 小 型 控制 器 实物 图 Blee esse. wu 
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图 6.7 所 示 的 为 这 人 台 盘 阵 的 电源 模块 插 槽 。 


Bb: emanas 
6.3 独立 宣言 一 一 独立 的 外 部 磁盘 阵列 


主机 由 于 肚 量 太 小 容 不 下 想法 太 多 的 磁盘 ! 终于 磁盘 从 主机 内 部 跑 出 来 了 ， 磁 盘 们 在 
AMAA T. Æ RAD 控制 器 的 带领 下 ， 欣 欣 向 荣 ， 勇 往 直 前 ! 

磁盘 和 控制 器 发 布 了 独立 宣言 ， 彻 底 摆脱 了 主机 的 束缚 ， 成 为 与 主机 对 峙 的 一 个 独立 
的 外 部 设备 。 从 此 以 后 ， 存 储 技术 才 真 正 的 成 为 一 个 独立 的 庞大 学 科 ， 并 不 断 发 展 壮大 。 
本 书后 面 的 章节 会 介绍 更 多 的 存储 技术 ， 包 括 存储 网 络 和 网 络 存储 。 

1. 前 端 和 后 端 

对 于 盘 阵 来 说 ， 图 6.3 中 RAID 控制 器 的 左边 就 称 为 “前 端 ”， 右 边 则 称 为 “后 端 ”。 
面向 主机 对 外 提供 服务 的 就 叫 前 端 ， 面 向 自己 管理 的 磁盘 用 于 内 部 管理 而 外 部 不 需要 了 解 
的 部 分 就 叫做 后 端 。 同 样 ， 对 于 主机 来 说 ， 它 的 SCSI 适配器 反而 成 了 后 端 ， 而 以 太 网 卡 可 
能 变 成 了 前 端 。 因 为 对 于 主机 来 说 ， 直 接 面 对 外 部 客户 机 的 是 以 太 网 ， 而 管理 磁盘 的 工作 
不 必 对 客户 说 明 ， 所 以 变 成 了 后 端 。 
2. 内 部 接口 和 外 部 接口 
对 于 盘 阵 来 说 , 还 有 一 个 内 部 接口 和 外 部 接口 的 概念 。 内 部 接口 是 指 盘 阵 RAID 控制 器 
连接 其 内 部 磁盘 时 候 用 的 接口 ， 比 如 可 以 连接 IDE 磁盘 ，SCSI 磁盘 ，SATA 磁盘 和 FC 磁盘 
等 。 外 部 接口 是 指 盘 阵 控制 器 对 于 主机 端 ， 也 就 是 前 端 ， 提 供 的 是 什么 接口 ， 比 如 SCSI 接 
. FC 接口 等 。 内 部 接口 可 以 和 外 部 接口 相同 ， 比 如 内 部 用 SCSI 磁盘 ， 外 部 也 用 SCSI 接 
连接 主机 ， 这 种 情况 也 就 是 图 6.3 中 所 示 的 情况 。 
外 接口 也 可 以 不 同 ， 比 如 内 部 连接 IDE 磁盘 ,外 部 却 用 SCSI 接口 连接 主机 ( 仅 限于 盘 
阵 ， 盘 柜 必 须 内 外 接口 一 致 ] 。 盘 阵 控制 器 是 一 个 虚拟 化 引擎 , 它 的 前 端 和 后 端 可 以 不 一 致 ， 
它 可 以 向 主机 报告 其 有 多 少 LUN， 尽 管内 部 的 磁盘 是 IDE 的 。 
3. 多 外 部 接口 
要 被 盘 阵 上 为 什么 可 以 有 多 个 外 部 SCSI 接口 而 感到 困惑 。 有 多 个 接口 是 为 
了 连接 多 台 主 机 用 的 。 每 个 由 盘 阵 RAD 控制 器 生成 的 逻辑 磁盘 ， 可 以 通过 设置 只 分 配 
(Assign/Map) 到 其 中 一 个 口 ， 比 如 LUN1 被 分 配 到 了 1 号 口 ， 那 么 连接 到 2 号 口 的 主机 就 
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不 会 看 到 这 个 LUN。 也 可 以 把 一 个 LUN 同时 分 配 (或 叫做 Map， 映 射 ) 到 两 个 口 ， 那 么 两 台 


主机 能 同时 识别 出 这 个 LUN。 让 两 台 主 机 同时 对 一 个 LUN 写 数据 ， 底 层 是 允许 的 ， 但 是 很 


容易 造成 数据 的 不 一 致 ， 除 非 使 用 集群 文件 系统 ， 或 者 高 可 用 性 系统 软件 的 参与 。 


4. 关于 LUN 


LUN 是 SCSI 协议 中 的 名 词 , 我 们 前面 也 描述 过 。LUN 是 SCSIID 的 更 细 一 级 的 地 址 号 ， 
每 个 SCSI ID(Target 1D) 下 而 还 可 以 有 更 多 的 LUN ID( 视 ID 字段 的 长 度 而 定 )。 对 于 大 型 磁盘 
阵列 来 说 ， 可 以 生成 几 百 甚至 几 千 个 虚拟 磁盘 ， 为 每 个 虚拟 磁盘 分 配 一 个 SCSI ID 是 远 远 不 


够 用 的 。 因 为 每 个 SCSI 总 线 最 多 允许 16 个 设备 接 入 (目前 32 位 SCSI 标准 最 大 允许 32 个 
设备 ]。 要 在 一 条 总 线 上 放置 多 于 16 个 物理 设备 也 是 不 可 能 的 ，LUN 就 是 这 样 一 个 次 级 寻 
址 ID。 磁盘 阵列 可 以 在 一 个 SCSIID 下 虚拟 多 个 LUN 地 址 ， 每 个 LUN 地 址 对 应 一 个 虚拟 磁 
盘 ， 这 样 就 可 以 在 一 条 总 线 上 生成 众多 虚拟 磁盘 ， 以 满足 需求 。 

后 来 ， 人 们 把 硬件 层次 生成 的 虚拟 磁盘 ， 统 一 称 为 “LUN”， 不 管 是 不 是 在 SCS 环境 
,虽然 LUN 最 初 只 
比如 各 种 卷 管理 软件 、 

有 些 盘 阵 配 有 液晶 操控 面板 ,如 图 6.8 所 示 。 而 有 些 低 端的 盘 阵 更 是 在 液晶 面板 周围 加 
:了 按钮 ， 用 来 对 盘 阵 进 行 简 单 快速 的 配置 ， 比 如 查看 磁盘 状态 、 设 置 RAID、 化 分 逻辑 磁 
盘 等 。 这 种 方式 极其 


JE SCSI 体系 里 面 的 一 个 概念 而 由 软件 生成 的 虚拟 磁盘 , 统一 称 为 “ 卷 ”， 
软 RAID 软件 等 所 生成 的 虚拟 磁盘 。 


简化 了 配置 操作 ， 一 般 用 户 通过 阅读 说 明 书 就 可 以 完成 配置 。 不 过 液 


晶 屏幕 比较 小 ， 能 完成 的 功能 不 多 ,操作 相 比 用 鼠标 要 麻烦 。 所 以 一 些 盘 阵 提供 了 COM O 


或 者 以 太 网 接口 ， 


以 对 盘 阵 进行 配置 。 


x5: 写 数据 。 
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以 用 PC 机 连接 这 些 接口 与 盘 阵 通信 ， 通 过 仿真 终端 或 Web 界面 就 可 


JA P A PC 机 与 盘 阵 的 COM 口 或 专用 于 配置 的 以 太 网 接口 连接 , 完全 是 为 了 配 
置 磁盘 阵列 的 各 种 参数 ， 而 不 是 通过 这 些 配置 专用 接口 从 磁盘 阵列 的 磁盘 上 读 


图 6.8_ 一 个 带 液晶 面板 的 盘 阵 前 视图 


第 日 BS 阵列 之 行 一 大 话 磁盘 阵列 


6.4 双龙 戏 珠 一 一 双 控 制 器 的 高 安全 性 磁盘 阵列 


如 果盘 阵 内 部 只 7 
点 故障 点 。 所 以 一 些 高 端的 盘 


的 LUN 逻辑 卷 ， 可 以 在 这 个 控制 器 


一 个 控制 器 模 


阵 内 部 
因 


ps3 


管 ， 继 续 处 理 针 对 这 个 LUN 的 
方 故障 ， 那 么 就 会 自动 将 所 有 
因为 如 此 ， 两 个 控制 器 之 
信息 。 两 个 控制 器 之 间 可 以 用 
统一 标准 。 至 二 
为 了 避免 单 点 故障 ， 给 盘 


们 后 端 共享 一 条 或 者 多 条 磁盘 总 线 。 两 个 控制 器 可 以 使 用 Active-Standby 的 方式 ， 也 五 


使 用 Dual-Active 的 互 备 方式 。 
1. Active-Standby 


交互 信息 的 逻辑 和 内 容 ， 这 更 是 
阵 安 装 一 个 额外 的 控制 器 ， 这 个 控制 器 和 原来 的 控制 器 在 它 


LUN 都 接管 过 来 。 


因 品 牌 而 不 同 ， 


块 ,那么 会 是 一 个 SPOF(Single Point Of Failure), 即 单 
都 有 两 个 控制 器 ， 互 为 见 余 。 分 配给 其 
故障 失效 的 时 候 ， 自 动 被 另 一 个 了 
读 写 请 求 。 两 个 控制 器 平时 都 管理 各 自 的 LUN， 一 旦 发 现 对 


间 需 要 相互 通信 ， 通 告 对 方 自己 的 状态 以 及 交互 一 些 其 
PCI 总 线 连 接 ， 也 可 以 用 厂商 自己 设计 的 总 线 来 连接 ， 没 


g 


hp 一 个 控制 器 
tide 


LA EIER BE 


他 的 
有 
更 没有 标准 来 统一 它们 。 


以 


这 种 方式 又 称 HA 方式 (High Availability， 高 可 用 性 )， 即 两 个 控制 器 中 同一 时 刻 只 有 一 


Alc £s 


个 在 工作 ， 另 外 一 个 处 于 等 待 


立即 接管 其 工作 。 


对 于 内 部 为 SCSI 总 线 的 双 控制 器 盘 


同步 和 监控 状态 。 


- 旦 主 控 制 器 发 生 故 障 ， 则 备份 控制 器 


BE, 在 机 头 内 部 的 一 条 SCSI 总 线 中 ,两 个 控制 器 可 


以 分 别 占用 一 个 ID, 这 样 剩余 14 个 ID 给 磁盘 使 用 。 平 时 只 有 主 控制 器 这 个 ID 作为 Initiator 
向 除了 备份 控制 器 ID 之 外 总 线 上 的 其 他 ID( 也 就 是 所 有 磁盘 的 ID) 来 发 送 指令 从 而 读 写 


数据 。 

同 
去 联系 ， 
接管 之 前 需要 通过 某 种 机 制 将 
后 端 总 线 和 前 端 总 线 。 


备份 控制 器 与 主 控 制 


器 之 间 保 持 通信 和 缓存 同步 ， 一 


主 控制 器 


1 主 控制 器 与 备份 控制 器 失 


那么 备份 控制 器 立即 接管 主 控制 器 。 同 时 为 了 预防 脑 分 裂 ( 见 下 文 )， 备 份 控制 器 在 
断 电 或 者 重启 ， 释 放 其 总 线 使 用 权 ， 然 后 自己 接管 


引 主 机 端 必须 用 两 个 SCSI 适配器 分 别 连接 到 盘 阵 的 两 个 控制 器 上 ， 才 能 达到 宛 
| 余 的 目的 ， 但 是 这 样 做 主机 端 必须 通过 某 种 方式 感知 到 这 种 HA 策略 并 在 故障 
S AUEN JA. Hd]. dT SCSI 盘 阵 本 身 比较 低 端 ， 可 接 入 容量 不 大 ， 所 以 没 


有 双 控 制 器 的 设计 ， 以 上 文字 只 是 对 HA 机 制 的 一 种 描述 。 但 是 对 于 本 书后 面 
要 讲述 的 FC 盘 阵 来 说 ,使 用 双 控 制 器 以 及 在 主机 端 使 用 双 FC 适 配 卡 是 非常 普 


遍 的 。 


2. Dual-Active 


顾名思义 ， 这 种 双 控制 器 
后 端的 总 线 有 通路 ， 但 是 每 个 


总 


的 实现 方式 是 两 个 控制 器 同时 在 了 


[ 作 ， 每 个 控制 器 都 对 所 有 


线 平时 只 被 其 


可 以 将 后 端 一 半数 量 的 总 线 交 


一 个 控制 器 管理 ， 另 一 个 控制 器 不 


去 触动 。 


一 个 控制 器 管理 ， 另 


半 交 


另外 一 个 控制 器 管理 。 


H 
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其 中 一 个 控制 损坏 ， 则 另外 一 个 控制 器 接管 所 有 总 线 。 这 种 方式 比 Active-Standby 方式 高 
效 很 多 。 

3. 脑 分 裂 (Split Brain) 

这 个 词 明显 有 点 恐怖 。 设 想 一 下 ， 如 果 某 时 刻 连接 两 个 控制 器 之 间 的 通路 出 现 了 问题 ， 
而 不 是 其 中 某 个 控制 器 死机 ， 此 时 两 个 控制 器 其 实 都 是 工作 正常 的 ， 但 是 两 者 都 检测 不 到 
对 方 的 存在 ， 所 以 两 者 都 尝试 接管 所 有 总 线 ， 这 时 候 就 是 所 谓 的 “ 脑 分 裂 ”， 即 同时 有 两 
个 活动 控制 器 来 操控 所 有 后 端 设备 。 这 种 情况 是 可 怕 的 ， 类 似 精 神 分 裂 症 。 
如 何 预防 这 种 情况 呢 ? 通常 做 法 是 利用 一 个 仲裁 者 来 选择 到 底 使 用 哪 一 个 控制 器 接管 
所 有 总 线 ， 比 如 用 一 两 个 控制 器 都 能 访问 到 的 磁盘 ， 控 制 器 向 其 上 写 入 自己 的 仲裁 信息 。 
一 旦 发 生 脑 分 裂 ， 二 者 就 参考 这 个 磁盘 ， 谁 最 后 写 入 了 信息 就 把 控制 权 给 谁 。 或 者 用 一 种 
电源 控制 器 ， 一 旦 其 中 某 个 控制 器 要 接管 ， 那 么 不 管 对 方 是 确实 发 生 故 障 了 还 是 正常 的 ， 
这 个 控制 器 都 会 向 电源 控制 器 发 送信 号 ， 让 对 方 重启 并 进入 Standby 状态 ， 这 样 就 成 功 的 
预防 了 脑 分 裂 。 

接管 了 总 线 的 控制 器 一 般 都 会 对 总 线 上 所 有 磁盘 进行 SCSI Reserve 操作 ， 即 预订 操作 。 
总 线 上 所 有 目标 设备 一 旦 被 预订 ， 它 们 便 不 再 接受 其 他 控制 器 的 10 请 求 。SCSI 2 标准 中 的 
SCSI Reserve 不 允许 其 他 控制 器 读 写 被 原 有 控制 器 预订 的 设备 ， 但 是 SCSI3 中 的 Reserve 
策略 有 了 一 些 灵 活性 ， 可 以 允许 其 他 控制 器 对 已 经 被 预订 的 目标 设备 进行 读 10， 而 写 10 则 
图 6.9 所 示 的 是 一 双 控制 器 盘 阵 机 头 示意 图 。 


scsilll S 


Ble? 双 控 制 器 磁盘 阵列 示意 图 


实际 中 ， 由 于 SCSI 盘 阵 比较 低 端 ， 一 般 没有 这 种 设计 模式 的 产品 。 


6.5 ”龙头 凤 尾 一 一 连接 多 个 扩展 柜 


一 条 SCSI 总 线 最 多 就 可 以 连接 15 块 磁盘 ， 为 了 这 15 块 磁盘 ， 大 动 干戈 的 赋予 两 个 昂 
贵 的 RAID 控制 器 ， 有 点 不 值 。 为 了 把 这 两 个 控制 器 充分 的 利用 起 来 ， 棕 取 最 后 一 滴 性 能 ， 
15 块 磁盘 不 够 ， 那 就 再 加 。 我 们 前 面 说 过 ， 一 个 控制 器 上 可 以 有 多 个 通道 ， 一 个 通道 下 面 
就 是 一 条 SCSI 总线， 那么 将 盘 阵 的 每 个 控制 器 上 再 多 接 一 个 或 者 两 个 通道 ， 来 充分 发 挥 它 
的 能 力 ， 这 样 就 比较 实惠 了 。 如 图 6.10 所 示 , 这 人 台 盘 阵 机 头 带 有 一 个 扩展 后 端 磁盘 柜 接 口 。 


11501 
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6.10 _ 带 有 一 个 扩展 外 部 磁盘 通道 接口 的 控制 器 示意 图 


通道 建 好 之 后 ， 当 然 下 一 步 就 是 要 扩充 磁盘 数量 了 。 当 然 ，JBOD 就 成 了 最 佳 选择 。 
图 6.11 所 示 的 盘 阵 的 每 个 控制 器 上 多 出 一 个 额外 的 磁盘 通道 接口 ， 这 个 接口 露 在 机 箱 
外 面 ， 用 线 缆 连接 了 一 个 ]BOD 扩展 柜 。 


JBOD 扩 展柜 


图 6.11_ 外 接 一 个 JBOD 扩展 柜 的 磁盘 阵列 

经 过 这 样 的 改造 ， 可 连接 的 磁盘 数量 成 倍增 长 。 图 中 所 示 的 是 每 个 控制 器 增加 了 一 个 
磁盘 通道 ， 还 可 以 增加 到 两 个 或 者 多 个 通道 。 理 论 上 ， 只 要 RAD 控制 器 处 理 速 度 够 强 ， 总 
线 带 宽 和 面板 上 空间 够 大 ， 多 增加 几 个 通道 都 没 问题 。 
JBOD 盘 柜 以 前 只 有 一 个 外 部 接口 ， 为 了 配合 双 控制 器 ，JBOD 在 其 外 部 也 增加 了 一 个 
接口 用 来 连接 元 余 的 控制 器 。 这 样 ， 扩 展柜 上 也 有 两 个 外 部 接口 了 。 
把 带 有 控制 器 的 磁盘 柜 称 作 “ 机 头 ”， 因 为 它 就 像 火车 头 一 样 ， 是 提供 动力 的 。 机 头 
里 可 以 有 磁盘 ， 也 可 以 根本 不 含 磁盘 。 把 用 于 扩展 容量 用 的 JBOD 叫做 “扩展 柜 ”， 它 就 像 
一 节 节 火 车 车 厢 ， 本 身 没 有 动力 ， 全 靠 车 头 带 ， 但 是 基本 的 供电 和 冷却 系统 还 是 要 有 的 。 
图 6.12 所 示 的 是 IBM 的 DS400 盘 阵 机 头 后 视图 ， 它 是 每 控制 器 提供 3 个 通道 ， 机 头 内 部 
的 磁盘 占用 一 个 ， 然 后 另外 2 个 提供 扩展 ， 在 后 面板 上 给 出 两 个 SCSI 接 口 。 图 中 “Expand 
ports” 所 示 的 就 是 这 两 个 SCSI 接口 。 右 边 空 白 的 地 方 是 用 来 接 入 另外 一 个 控制 器 的 ， 这 个 
控制 器 是 可 选 组 件 。 
图 6.13 是 用 于 连接 DS400 机 头 的 扩展 柜 EXP400。 可 以 看 到 它 的 左右 各 有 一 个 接口 模 
块 ， 每 个 模块 上 有 一 个 SCSI 接口 用 来 连接 机 头 。 


[1511 


大 话 存储 


网 络 存 储 系 统 原理 精 解 与 最 佳 实践 
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6.12. DS400 盘 阵 的 机 头 后 视图 


ScslComector 2 SCSI Comestor 1 


6.13 EXP400 扩展 柜 的 后 视图 


6.6 ”锦上添花 一 一 完整 功能 的 模块 化 磁盘 阵列 


再 后 来 ， 机 头 做 的 


都 比较 漂亮 ， 而 是 感觉 很 厚实 。 但 是 JBOD 就 是 一 堆 磁 盘 ， 显 得 和 机 


头 有 些 不 搭配 。 所 以 也 给 扩展 柜 增 加 了 所 谓 的 模块 ， 外 观 不 仔细 看 的 话 ， 和 机 头 没 很 大 的 


区 别 。 只 不 过 扩展 柜 的 
测 磁盘 温度 等 二 线 辅 


所 以 外 观 和 机 头 差不多 


图 6.9 所 示 的 ESM 
柜 的 实物 后 视图 ， 可 Lb 
备 各 处 的 传感器 发 来 的 


两 个 ESH(Electrical Sw 


模块 上 ， 没 有 RAID 控制 器 的 功能 ， 但 是 会 加 上 一 些 其 他 功能 ， 如 探 
功能 。 这 个 模块 将 接口 、 功 能 芯片 、 电 路 等 都 集成 在 一 个 板子 上 ， 


模块 ， 就 是 实现 这 些 功能 的 插 板 。 图 6.11 中 所 示 的 是 一 个 磁盘 扩展 
看 到 上 下 两 个 模块 ， 这 两 个 模块 不 但 负责 链 路 通信 ， 还 负责 收集 设 
信息 。 


图 6.14 为 一 台 盘 阵 的 前 视图 。 图 6.15 是 一 台 FC 接口 的 扩展 柜 后 视图 ， 可 以 看 到 上 下 


itch Hub) 模 块 。 这 些 磁盘 扩展 柜上 的 模块 中 主要 包含 单片机 或 者 DSP 


芯片 .FC-AL 半 交 换 逻 辑 处 理 以 及 其 他 功能 的 FPGA/ASIC/CPLD 芯片 SFP 适配器 编码 芯片 、 
ROM 或 者 Flash 芯片 (存放 Firmware). RAM 缓存 芯片 (用 于 存放 芯片 执行 程序 时 所 需 的 数 
据 ) 等 ， 视 设计 不 同 而 定 。 如 果 有 新 的 Firmware 被 开发 出 来 ， 可 以 将 程序 逻辑 写 入 Flash 


或 ROM 芯片 中 ， 这 个 


过 程 就 是 固件 升级 。FPGA/CPLD 等 芯片 需要 用 外 置 的 编程 器 写 入 新 


的 电路 逻辑 。ASIC 芯片 不 可 升级 ， 是 固定 逻辑 的 芯片 ， 适 用 于 成 熟 的 、 量 产 的 芯片 ， 比 如 


SFP 编码 芯片 等 。 
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图 6.14_ 一 个 扩展 柜 的 前 视图 


图 6.1 


随 着 人 
么 惊人 的 事 
因此 大 的 主 


第 日 B 阵列 之 行 一 大 话 磁盘 阵列 


6 所 示 为 扩 


Ble.16 ESH2 模块 实物 图 
6.7 一 脉 相 承 一 一 主机 和 磁盘 阵列 本 是 一 家 


1. 盘 阵 控制 器 的 主机 化 


们 需求 不 断 提 高 ， 一 个 存储 系统 拥有 几 TB 甚至 几 十 几 百 TB 的 容量 已 经 不 是 什 


情 了 。 面 对 如 此 大 的 容量 和 如 此 多 的 磁盘 ， 小 小 的 控制 器 已 经 不 能 满足 要 求 了 。 


机 系统 末代 了 短小 精 悍 的 控制 器 。 


六 是 可 能 有 人 已 经 不 知 所 措 了 ， 用 主机 系统 替代 盘 阵 控制 器 ， 这 不 矛盾 么 ? 盘 阵 是 


给 主机 服务 的 ， 主 机 替代 了 盘 阵 控制 器 ， 岂 不 是 乱 了 华 分 了 ? 


事实 并 非 如 此 。 我 们 知道 ， 主 机 系统 的 经 典 架构 就 是 CPU、 内 存 、 总 线 、 各 种 10 设备 


和 CPU 执行 的 代码 (软件 ]。 而 观察 一 下 盘 阵 控制 器 的 基本 架构 : RAID 控制 器 芯片 [CPU)、 


10 接口 (SCSI 接口 等 ) 和 RAID 芯片 执行 的 代码 (软件 ]。 可 以 说 盘 阵 控制 器 就 是 


一 个 简单 的 主机 系统 。 
既然 这 样 ， 完 全 可 以 用 一 台 主 机 服务 器 来 充当 存储 系统 的 控制 器 。 比 如 ， 在 这 人 台 主 机 


图 6.17 


上 插入 几 张 SCSI 卡 作为 前 端 接口 卡 ,然后 再 插入 若干 SCSI 卡 作为 后 端 连 接 磁 盘 箱 的 接口 卡 ， 
然后 设计 软件 从 /向 后 端 读 写 数据 , 经 过 处 理 或 者 虚拟 化 之 后 , 再 传送 给 前 端的 主机 服务 器 。 

目前 有 两 种 趋势 ， 一 种 是 趋向 使 用 现成 的 主机 来 充当 控制 器 的 载体 ， 另 一 种 是 趋向 使 
高 集成 度 的 芯片 作为 控制 器 的 核心 。 两 种 趋势 各 有 利 浆 。 


所 示 的 是 一 台 主 机 化 的 磁盘 阵列 实物 图 。 


11531 


大 话 存储 


网 络 存 储 系 统 原理 精 解 与 最 佳 实践 


2. 盘 阵 的 类 型 

按照 前 端 和 后 端 接口 来 分 ， 有 SCSI-FC 盘 阵 ，FC-FC 盘 阵 ，SATA-FC 盘 阵 ，SCSI-SCSI 
盘 阵 等 类 型 。SCSI-FC 类 型 表示 后 端 接口 为 SCSI 接口 ， 前 端 用 于 连接 主机 的 为 FC 接口 ， 也 
就 是 后 端 为 SCSI 磁盘 ， 前 端 为 FC 接口 的 盘 阵 。 
我 们 在 后 面 的 章节 会 讲 到 FC-FC 盘 阵 , 这 也 是 目前 最 高 端的 盘 阵 所 采用 的 架构 。 图 6.18 
所 示 的 就 是 一 台大 型 FC 磁盘 阵列 的 透视 图 图 示 中 一 共 5 个 机 柜 , 中 间 的 机 柜 整 柜 都 为 控制 
器 ， 上 方 可 见 一 排 10 插 卡 ， 插 卡 上 方 为 9 个 风扇 。 其 余 机 柜 中 均 为 磁盘 扩展 柜 。 


图 6.17 主机 化 的 盘 阵 控制 器 图 6.18_EMC DMX 系列 盘 隆 透视 图 
6.8 天罗地网 一 一 SAN(Storage Area Network) 
存储 区 域 网 络 


大 家 来 看 最 后 一 张 图 片 ， 如 图 6.19 Pros. 我 们 一 开始 描绘 的 那 张 “ 网 中 有 网 ”的 图 片 ， 
现在 大 家 应 该 能 更 深刻 的 理解 了 。 网 络 ， 不 仅仅 指 以 太 网 ，TCP/IP 网 ， 他 还 可 以 是 SCSI 
网 ，PCI 总 线 网 ，USB 网 等 。RAID 控制 器 ， 就 相当 于 一 个 路 由 器 ， 也 就 是 协议 转换 器 。 

将 磁盘 放 到 了 主机 外 部 ， 存 储 设备 和 主机 之 间 ， 就 形成 了 又 一 个 独立 的 网 络 ， 存 储 区 
域 网 络 (Storage Area Network. SAN). 


x 


cpu RAM 


xn Heel 


HREFNA EJ 


Be:9 mtam 
数据 就 是 在 这 种 网 络 中 来 回 穿梭 ， 格 式 不 断 被 转换 和 还 原 。 
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e 三 元 素 
e 七 层 结构 


千 百 年 来 ， 江 湖 中 人 一 直 都 把 祖宗 流传 下 来 的 一 本 宝典 ， 铭 记 于 心 ! 这 本 宝典 就 
是 号 称 “号 令 武 林 ， 莫 敢 不 从 ”的 OSI 大典 ! 

任何 系统 之 间 ， 如 果 需 要 通信 ， 就 有 一 套 自 己 的 协议 系统 。 这 个 协议 系统 不 仅 要 
定义 双方 互相 通信 所 使 用 的 语言 ， 还 要 规定 所 使 用 的 硬件 ， 比 如 通信 线路 等 。 例 如 以 
太 网 协议 ， 凡 是 接 入 以 太 网 的 (交换 机 或 者 HUB) 节 点 ， 都 必须 遵循 以 太 网 所 规定 的 通 
信 规 程 。 两 个 对 讲 机 之 间 进 行 通话 ， 必 须 预先 定义 好 发 送 和 接收 的 频率 ， 而 且 还 要 指 
定 通信 的 逻辑 ， 比 如 每 说 一 句 话 之 后 ， 要 说 一 个 “完毕 ”， 表 示 本 地 已 经 说 完 ， 该 对 
JHT. 
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7.1 人 类 模型 与 计算 机 模型 的 对 比 齐 析 
人 和 计算 机 ， 二 者 有 着 天 然 的 相似 性 。 


711 人 类 模型 


人 类 自身 用 语言 来 交流 信息 ， 这 本 身 就 是 系统 间 通 信 的 极 佳 例 子 。 每 个 人 都 是 一 个 系 
统 ， 这 个 系统 由 八大 子 系统 组 成 ， 每 个 子 系统 行使 自己 的 功能 ， 各 个 子 系统 相互 配合 ， 使 
得 人 体 可 以 做 出 各 种 各 样 的 事情 ， 包 括 制造 计算 机 系统 这 个 “部 分 仿生 ”产物 。 

1. 消化 系统 

负责 食物 的 摄取 和 消化 ， 使 我 们 获得 糖 类 脂肪 蛋白 质 维生素 等 营养 ， 再 经 过 一 系列 生 
化 酶 促 反 应 ， 最 终 可 以 生成 能 量 ， 以 ATP 分 子 的 形式 向 各 个 细胞 供应 化 学 能 ， 再 经 过 一 系 
列 的 分 子 机 器 (蛋白 质 或 者 蛋白 质 复合 体 ) 的 处 理 ， 可 以 形成 机 械 能 、 热 、 光 、 电 等 各 种 能 量 
形式 。 

2. 神经 系统 

负责 处 理 外 部 信息 和 调控 人 类 自身 运动 ， 使 我 们 能 对 外 界 的 刺激 有 很 好 地 反应 ， 包 括 
学 习 等 重要 的 活动 也 是 在 神经 系统 控制 下 完成 的 。 比 如 皮肤 、 耳 杀 、 眼 睛 等 接收 的 各 种 信 
号 ， 都 会 经 过 神经 网 络 传送 到 大 脑 进行 处 理 并 做 出 反映 。 

3. 呼吸 系统 

气体 交换 的 场所 ， 使 人 体 获 得 新 鲜 的 氧气 。 人 类 和 制造、 储存 和 利用 能 量 的 每 个 过 程 ， 
都 需要 氧气 的 参与 ， 氧 气 是 很 好 的 氧化 剂 ， 人 类 利用 这 种 氧化 剂 ， 氧 化 摄取 的 糖 、 蛋 白质 
等 物质 ， 产 生 能 量 ， 如 果 没 有 氧气 ， 则 人 体 一 切 的 生命 活动 就 会 终止 ， 包 括 心肌 的 收缩 和 
扩张 运动 。 

4. 循环 系统 

负责 氧气 、 营 养 和 体液 以 及 各 种 信号 控制 分 子 的 运输 、 废 物 和 二 氧化 碳 的 排泄 ， 以 及 
免疫 活动 。 人 体 的 这 些 空间 中 ， 各 种 器 官 按照 规则 分 布 着 ， 每 个 器 官 行使 其 功能 ， 必 须 供 
给 它们 能 量 、 水 和 氧气 以 及 各 种 控制 因子 蛋白 ， 遍 布 周身 的 密密麻麻 的 动脉 、 静 脉 和 毛细 
血管 ， 就 是 运输 这 些 物 质 必须 的 通道 。 这 些 物 质 溶 在 血液 中 ， 从 动脉 流入 器 官 ， 完 成 生命 
逻辑 后 ， 从 静脉 流入 肾脏 ， 过 滤 废 物 ， 排 汇 ， 干 净 的 静脉 血 再 流 回 心 脏 ， 然 后 进入 动脉 ， 
经 过 肺 部 的 时 候 ， 将 肺 部 获取 的 氧气 吸 溶 入 血液 ， 成 为 鲜红 色 的 动脉 血 ， 然 后 再 流入 各 个 
器 官 ， 供 给 必须 物质 。 

5. 运动 系统 

负责 身体 的 活动 ， 使 我 们 可 以 做 出 各 种 姿势 。 骨 骼 和 肌肉 属于 运动 系统 ， 骨 骼 虽然 不 
直接 运动 ， 但 是 它 能 在 肌肉 的 牵引 下 进行 运动 。 控 制 肌肉 运动 的 是 神经 信号 ， 大 脑 发 出 神 
经 控制 信号 (一 系列 的 蛋白 质 或 者 离子 流 ), 肌肉 组 织 收 到 之 后 , 便 会 引发 雪 骨 似 的 化 学 反应 ， 
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包括 肌肉 细胞 中 的 微 管 结构 的 不 断 重 组 和 释放 ， 用 这 种 形式 来 改变 细胞 形状 ， 从 而 造成 
肉 收 缩 或 者 扩张 。 而 微 管 的 组 装 和 释放 ， 需 要 能 量 和 酶 的 参与 ， 这 时 候 ， 细 胞 便 会 贪 禁 的 
利用 ATP 分 子 来 获取 化 学 能 ， 而 血液 ATP 损耗 之 后 ， 血 液 便 会 加 速 流动 到 肌肉 周围 ， 提 供 
更 多 的 能 量 。 这 也 是 运动 时 心脏 加 速 跳动 的 原因 。 而 心脏 跳动 速度 的 控制 因素 很 多 ， 比 如 
受到 惊吓 的 时 候 ， 大 脑 便 会 分 泌 一 些 物质 ， 传 送 到 心肌 ， 引 发 反应 ， 跳 动 速度 加 快 。 

6. 内 分 泌 系 统 

调解 生理 活动 ， 使 各 个 器 官 组 织 协调 运作 。 内 分 泌 系统 是 一 个 中 央 调 控 系 统 ， 比 如 生 
长 素 就 是 内 分 泌 系统 分 泌 的 一 种 蛋白 质 分 子 ， 它 被 骨骼 吸收 后 ， 可 以 促进 骨骼 生长 。 内 分 
泌 系 统 如 果 发 生 功 能 故障 ， 则 人 体 就 会 表现 异常 。 包 括 精 神 和 物理 上 的 异常 。 

7. 生殖 系统 

负责 生殖 活动 ， 维 持 第 二 性 征 。 生 殖 系 统 是 人 类 繁衍 的 关键 ， 生 殖 系 统 将 人 类 的 所 有 
特征 融入 精子 和 卵子 ， 受 精 卵 在 母亲 子宫 中 逐渐 发 育成 全 功能 的 人 体 。 

8. 泌尿 系统 

负责 血液 中 生化 废物 的 排泄 ， 产 生 尿 液 。 


712 计算 机 模型 

我 们 发 现 ， 计 算 机 系统 和 工作 模式 ， 与 生物 系统 有 很 大 一 部 分 是 类 似 的 。 

1. 计算 机 的 消化 系统 

消化 子 系统 是 为 整个 系统 提供 基本 能 量 和 排泄 消化 废物 的 。 给 计算 机 提供 能 量 的 是 电 
源 和 密布 在 电路 板 上 的 供电 线路 。 为 计算 机 排泄 能 量 废物 的 ， 是 接地 低 电 位 触 点 。 电 流 流 
经 供电 线路 ， 到 接地 触 点 终止 将 能 量 提 供给 电路 板 上 的 各 个 部 件 ( 器 官 )。 此 外 ,计算 机 的 
“消化 ”也 包含 另外 的 意思 ， 即 吞 入 数据 ， 吐 出 数据 的 过 程 。 计 算 机 从 磁盘 上 读 入 数据 ， 
进行 计算 (消化 ) 后 ， 再 输出 数据 。 
2. 计算 机 的 循环 系统 
循环 子 系统 是 为 整个 系统 提供 能 量 和 物质 传输 通道 的 。 给 计算 机 提供 数据 传输 通道 的 
是 各 种 总 线 ， 数 据 从 总 线 流入 CPU 处 理 单元 ， 完 成 计算 逻辑 后 ， 数 据 又 从 总 线 输出 到 内 存 
或 者 外 设 。 所 以 我 们 说 ， 计 算 机 的 循环 系统 ， 就 是 总 线 ， 心 脏 就 是 电路 振荡 装置 。 
3. 计算 机 的 呼吸 系统 
呼吸 子 系统 是 为 整个 系统 提供 完成 生命 逻辑 所 必需 的 氧化 剂 ， 即 氧气 为 计算 机 散热 的 
风扇 ， 貌 似 呼 吸 系统 ， 但 风扇 的 功能 更 类 似 于 皮肤 和 毛孔 的 散热 作用 。 
. 计算 机 的 神经 系统 
h 经 子 系统 的 作用 是 传输 各 种 信号 ， 调 节 各 个 器 官 的 功能 。 对 于 生物 体 来 说 ， 神 经 系 
统 是 运行 在 脑 组 织 中 的 一 种 逻辑 ， 这 种 逻辑 通过 执行 一 系列 生化 物理 反应 来 体现 它 的 存在 。 
通过 向 血液 中 释放 各 种 蛋白 质 信 号 分 子 ， 从 而 靶 向 各 种 器 官 ， 调 节 它 们 的 功能 。 对 于 计算 
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机 系统 来 说 ， 神 经 系统 就 是 由 CPU 载 入 执行 的 程序 ， 程 序 生 成 各 种 信号 ， 通 过 总 线 传输 给 
各 个 外 部 设备 ， 从 而 调节 它们 的 工作 。 

计算 机 的 神经 系统 ， 可 以 认为 就 是 外 部 硬件 设备 的 驱动 程序 。 神 经 网 络 就 是 控制 总 线 ， 
循环 系统 是 数据 总 线 。 而 生物 体内 没有 地 址 总 线 的 概念 ， 血 管 凌乱 的 分 布 ， 并 没有 一 种 显 
式 的 区 分 机 制 来 区 分 各 个 器 官 或 者 组 ， 信 号 分 子 可 以 遍布 周游 全 身 。 

5. 计算 机 的 运动 系统 

计算 机 本 身 是 一 堆 电 路 和 芯片 ， 不 存在 运动 的 概念 。 但 是 如 果 向 计算 机 接口 上 接 入 了 
可 以 运动 的 部 件 , 比如 打印 机 、 电 动机 、 硬 盘 等 , 那么 这 些 设 备 就 可 以 在 计算 机 控制 信号 ( 神 
经 信号 ) 的 驱动 下 做 运动 ， 并 且 可 以 打印 或 者 读 写 数据 。 

6. 计算 机 的 生殖 系统 

Hif, 计算 机 系统 表现 的 生殖 能 力 , 只 是 在 一 个 硬件 中 生成 不 同 的 软件 。 软件 通过 CPU 
的 执行 ， 可 以 任意 复制 自身 ， 并 可 以 形成 新 的 逻辑 。 在 这 种 逻辑 下 ， 程 序 通 过 无 数 次 的 复 
制 ， 难 免 在 一 些 细微 的 Bug 或 者 电路 干扰 的 情况 下 发 生 奇特 的 变化 ， 这 些 变化 一 开始 可 能 
不 太 会 表现 出 来 ， 但 是 随 着 量变 的 积累 ， 就 会 引发 质变 ， 发 生 进化 。 

当然 ， 计 算 机 系统 完全 可 以 物理 复制 硬件 ， 即 通过 程序 控制 外 部 机 器 ， 来 生产 新 的 计 
算 机 硬件 ， 然 后 将 软件 复制 到 硬件 上 ， 继 续 繁殖 。 


7.1.3 个 体 间 交 流 是 群体 进化 的 动力 
人 也 好 ， 计 算 机 也 好 ， 他 们 之 间 都 在 不 停 地 交流 着 。 人 和 人 的 交流 ， 让 人 类 得 到 了 进 
化 。 同 样 ， 计 算 机 之 间 的 交流 ， 也 会 让 计算 机 得 到 进化 。 交 流 是 进化 的 动力 ， 不 可 能 有 某 


种 事物 会 完全 脱离 外 界 的 刺激 而 自身 进化 。 
OSI 便 是 这 种 交流 所 遵循 的 一 张 蓝 图 。 


7.2 ”系统 与 系统 之 间 的 语言 一 一 OSI| 初步 


OSI 模型 是 一 种 被 提取 抽象 出 来 的 系统 间 通 信 模 型 。0SI 中 文 的 意思 为 “开放 式 系 统 互 
联 ” 模 型 ， 是 一 个 描述 两 个 或 者 多 个 系统 之 间 如 何 交 流 的 通用 模型 。 它 不 只 适合 于 计算 机 
系统 互联 ， 而 且 适 合 任何 独立 系统 之 间 的 互联 。 比 如 ， 人 体 和 人 体 之 间 的 通信 ， 或 者 人 体 
和 计算 机 之 间 的 通信 ， 都 可 以 用 0SI 模型 来 描述 。 

比如 我 和 你 之 间 需 要 交流 ， 我 们 面对面 坐 着 ， 此 时 我 有 一 句 话 要 和 你 说 : “您 好 ， 您 
怎么 称呼 ? ”。 
首先 ， 我 要 说 出 这 句 话 ， 要 在 脑海 中 生成 这 名 话 ， 即 在 语言 处 理 单元 中 根据 要 表达 的 
思 ， 生 成 符合 语法 的 数据 。 然 后 通过 神经 将 数据 信号 发 送 到 声带 、 咬 肌 ， 舌 状 ， 舌 头 和 
形 固定 之 后 ， 使 声带 振动 。 声 带 振动 导致 口腔 空气 共振 ， 发 出 声音 ， 经 过 空气 机 械 波 振 
， 到 达 你 的 耳膜 接收 器 ， 耳 膜 被 机 械 波 谐振 于 一 定 频率 ， 耳 膜 的 振动 通过 神经 信号 传导 
大 脑 ， 大 脑 相 关 的 处 理 单元 进行 信号 的 解 调 ， 最 终 从 神经 信号 中 提取 出 我 说 的 话 “ 您 好 ， 
怎么 称呼 ? ”， 这 名 话 在 大 脑 中 ， 可 能 是 离子 流产 生 的 模拟 电信 号 ， 也 可 能 是 通过 其 他 
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形式 表示 ， 比 如 一 套 编码 系统 。 dd et a dei 
话 ，“ 您 好 ”是 一 个 问候 语 ， 当 你 知道 我 在 问候 你 的 时 候 ， 你 的 大 脑 会 在 这 个 “您 好 ” 信 
"SER. AP LR” 逻辑 运算 过 程 ， 运 算 生成 的 信号 ， 通 过 神经 传送 到 你 的 颈 
部 肌肉 ， 收 缩 ， 使 你 的 头 部 下 降 ， 并 使 面部 肌肉 收缩 ， 这 就 完成 了 点 头 致意 和 微笑 的 动作 。 
这 个 过 程 ， 与 计算 机 网 络 通信 的 模型 完全 一 致 。 两 台 计 算 机 之 间 通 过 以 太 网 交换 机 相 
连 ， 它 们 之 间 要 进行 通信 。 比 如 ，a 计算 机 想 向 b 计算 机 发 送 一 个 数据 包 ， 这 个 数据 包 的 内 
容 是 “打开 文件 C:\tellme.txt”， 过 程 如 下 所 示 。 
11 a 计算 机 首先 要 在 内 存 中 通过 双方 定义 的 语言 ， 生 成 这 个 数据 包 ， 
2] 将 这 个 数据 包 通过 总 线 发 送 给 TCP/IP 协议 处 理 单元 ， 告 诉 TCP/IP 处 理 单元 对 方 
的 IP 地址 和 所 用 的 传输 方式 (UDP 或 TCP) 和 端口 号 。 
3] TCP/IP 处 理 模 块 收 到 这 个 包 之 后 ， 将 它 包 装 好 ， 通 过 总 线 发 送 给 以 太 网 卡 。 
4] 以 太 网 卡 对 数据 包 进 行 编码 ， 然 后 通过 电路 将 包装 好 的 数据 包 变 成 一 串 电路 的 高 
低 电 平 振荡 ， 发 送 给 交换 机 。 
5] 交换 机 将 数据 包 交 换 到 b 计算 机 的 接口 。 
6] b 计算 机 收 到 这 串 电 位 流 后 , 将 其 输送 到 以 太 网 卡 的 解码 芯片 ， 去掉 以 太 网 头 , 之 
后 产生 中 断 信号 ， 将 数据 包 送 到 内 存 。 
7] gi TCP/IP 协议 处 理 模块 对 这 个 数据 包 进 行 分 析 , 提取 IP 头 和 TCP 或 UDP 头 ,以 
便 区 分 应 输送 到 哪个 应 用 程序 的 缓冲 区 内 存 。 
8] 最 终 TCP/IP 协议 将 “打开 文件 C:Ntellme.txt” 这 名 话 ， 成 功 输送 到 了 b 计算 机 应 
用 程序 的 缓冲 区 内 存 中 。 
9] b 计算 机 应 用 程序 提取 这 句 话 ， 分 析 它 的 语法 ， 发 现 a 计算 机 要 求 它 打开 
CAtellme.txt 文件 ， 则 应 用 程序 根据 这 个 命令 , 调用 操作 系统 打开 文件 的 API 执行 
这 个 操作 。 
分 析 一 下 上 面 的 过 程 ， 我 们 发 现 如 下 内 容 。 
11 数据 总 是 由 原始 直接 可 读 状 态 被 转变 成 电路 的 电位 振荡 流 ， 或 者 频率 和 振幅 不 断 
变化 的 机 械 波 ， 也 可 能 转换 成 一 定 频率 的 电磁 波 。 
2] 互相 通信 的 两 个 系统 之 间 必 定 要 有 连通 的 介质 ， 空 气 、 以 太 网 或 者 其 他 形式 ， 电 
磁 波 传递 不 需要 介质 。 
3] 相互 通信 的 双方 必须 知道 自己 是 在 和 谁 通信 。 
以 上 三 个 要 素 ， 就 是 系统 互联 通信 所 有 具备 的 “ 连 、 找 、 发 ”三 要 素 。 
e jE: 就 是 指 通信 的 双方 必须 用 某 种 形式 连通 起 来 ， 否 则 两 个 没有 任何 形式 连通 的 
系统 之 间 是 无 法 通信 的 。 即 便 是 电磁 波 通信 ， 也 至 少 通 过 了 电磁 波 连 通 。 
e 找 :是 说 通信 的 双方 或 者 多 方 , 必须 能 够 区 分 自己 和 对 方 以 及 多 方 (广播 系统 除外 )。 
e R: 定义 了 通信 的 双方 如 何 将 数据 通过 连通 介质 或 者 电磁 波 发 送 到 对 方 。 


7.3 OSI 模型 的 七 个 层次 


网 络 通信 三 元 素 抽象 模型 是 对 OST 模型 的 更 高 层次 的 抽象 OST 模型 将 系统 间 通 信 划 分 
成 了 七 个 层次 。 
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0SI 模型 的 最 上 面 的 三 层 , 可 以 归属 到 应 用 层 之 中 ， 因 为 这 三 层 都 不 关心 如 何 将 数据 传 
送 到 对 方 ， 只 关心 如 何 组 织 和 表达 要 传送 的 数据 。 


731 应 用 层 


应 用 层 是 0SI 模型 的 最 上 层 ， 它 表示 一 个 系统 要 对 男 一 个 系统 所 传达 的 最 终 信息 。 比 
如 “您 好 ， 您 怎么 称呼 ? ”这 人 旬 话 ， 就 是 应 用 层 的 数据 。 应 用 层 只 关心 应 用 层 自 身 的 逻辑 ， 
比如 这 名 话 应 该 用 什么 语法 ， 应 该 加 逗号 还 是 句号 ? 末尾 是 否 要 加 一 个 问号 ? 用 “你 ”还 
是 “您 ”等 这 样 的 逻辑 。 对 于 计算 机 系统 来 说 , 上 文 所 述 的 例子 中 “open file C :Ntellme.txt”， 
这 条 指令 ， 就 是 应 用 层 的 数据 。 应 用 层 程序 不 必 关 心 这 条 指令 是 如 何 传达 到 对 方 的 。 


7.3.2 RTE 


表示 层 就 是 对 应 用 层 数 据 的 一 种 表示 。 如 果 前 面 说 的 “您 好 ， 您 怎么 称呼 ? ”这 人 名 话 
是 有 一 定 附加 属性 的 ， 例 如 “您 好 ”这 两 个 字 要 显示 在 对 方 的 屏幕 上 ， 用 红色 显示 在 第 1 
行 的 中 央 ， 而 “您 怎么 称呼 ? ”这 几 个 字 用 蓝 色 显示 在 第 10 行 的 中 央 。 这 些 关 于 颜色 、 位 
置 等 等 类 似 的 信息 ， 就 构成 了 表示 层 的 内 容 。 

发 送 方 必须 用 一 种 双方 规定 好 的 格式 来 表示 这 些 信 息 ， 比 如 用 一 个 特定 长 度 和 位 置 的 
字段 来 编码 各 种 颜色 (一 般 用 三 原色 的 组 合 编码 来 表示 )， 用 一 个 字段 来 表示 行列 坐标 位 置 。 
将 这 些 附 加 表示 层 信息 字段 放置 于 要 表达 的 内 容 的 前 面 或 后 面 ， 接 受 方 按照 规定 的 位 置 和 
编码 来 解析 这 些 表 示 层 信息 ， 然 后 将 颜色 和 位 置信 息 赋予 “您 好 ， 您 怎么 称呼 ? ”这 名 话 ， 
显示 于 屏幕 上 。 需 要 强调 一 点 ， 表 示 层 不 一 定 非得 是 单独 的 一 个 结构 体 ， 它 可 以 嵌入 在 实 
体 数 据 中 。 这 就 是 表示 层 ， 一 些 加 密 等 操作 就 是 在 表示 层 来 起 作用 的 。 


733 会 话 层 


顾名思义 ， 会 话 层 的 逻辑 一 定 是 建立 某 种 会 话 交 互 机制 。 这 种 交互 机 制 实际 上 是 双方 
的 应 用 程序 之 间 在 交互 。 它 们 通过 交互 一 些 信息 ， 以 便 确 定 对 方 的 应 用 程序 处 于 良好 的 状 
态 中 。 比 如 两 个 人 通电 话 ， 拨 通 之 后 这 个 问 : “能 听 清 么 ?””， 那 个 说 : “能 听 清 ,请 讲 ”， 
这 就 是 一 个 会 话 的 过 程 。 也 就 是 说 通信 的 双方 在 发 送 实际 数据 之 前 ， 先 建立 一 个 会 话 ， 互 
相 打 个 招呼 ， 以 便 确 认 双 方 的 应 用 程序 都 处 于 正常 状态 。 

应 用 层 、 表 示 层 和 会 话 层 的 数据 内 容 被 封装 起 来 ， 然 后 交 给 了 我 们 的 货物 押运 员 传 
Pes 


Tz 


TCP/IP 协议 体系 模型 中 有 4 层 ， 即 应 用 层 (应 用 访问 层 )、 传 输 层 、 网 络 层 和 物理 链 路 
(硬件 访问 层 )。TCP/IP 协议 体系 没有 完全 按照 OSI 匹配 ， 它 将 0S! 中 的 应 用 层 、 表 示 层 
会 话 层 统统 合并 为 一 层 ， 叫 做 应 用 访问 层 ， 意 思 是 指 这 个 层 全 部 是 与 应 用 程序 相关 的 逮 
辑 ， 与 网 络 通信 无 关 ， 应 用 程序 只 需 调 用 下 层 的 接口 即 可 完成 通信 。 


7.3.4 传输 层 
可 以 说 OSI 模型 中 上 三 


>N 


属于 应 用 相关 的 ， 可 以 划 入 应 用 层 范围 ， 而 下 四 层 就 属于 网 


NI 
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络 通信 方面 的 。 也 就 是 说 ， 下 四 层 的 作用 是 把 上 三 层 生成 的 数据 成 功 的 送 到 目的 地 。 典 型 
的 传输 层 程序 如 下 。 
11 TCP 协议 的 作用 就 是 保障 上 层 的 数据 能 传输 到 目的 地 。TCP 就 像 一 个 货运 公司 的 
押运 员 ， 客 户 给 你 的 货物 ， 就 要 保证 给 客户 送 到 目的 地 ， 而 不 管 你 通过 什么 渠道 ， 
是 直达 ( 直 连 路 由 ) 还 是 绕道 (下 一 跳 路 由 ), 是 飞机 还 是 火车 、 轮 船 (物理 线路 类 型 )。 
2] 如 果 运 输 过程 中 出 现 错误 ， 必 须 重新 把 货物 发 送出 去 。 每 件 货物 到 了 目的 地 ， 必 
须 找 收 件 人 签字 (TCP 中 的 ACK 应 答 包 ) ,或 者 一 批 货物 到 达 后 , 收 件 人 一 次 签收 ( 滑 
动 窗口 )。 
3) 最 后 回 公 司 登记 。 


B 还 处 理 拥塞 和 流量 控制 。 比 如 调度 (路 由 器 ) 选 择 了 走 这 条 路 ， 但 是 太 拥挤 


示 ‖ 了 ， 那 么 我 也 不 好 说 什么 ， 因 为 选 哪 条 路 到 达 目 的 是 由 调度 (路 由 器 ) 说 了 算 ， 
我 只 管 押 运 。 那 么 我 只 能 通知 后 续 的 货物 慢 一 点 发 货 ， 因 为 这 条 路 太 挤 了 。 当 
道路 变 得 畅通 时 ， 我 会 通知 后 面 的 货物 加 速 发 货 。 这 就 是 TCP 的 任务 。TCP 是 
通过 接收 方 返回 的 ACK 应 答 数据 包 来 判断 链 路 是 否 拥挤 ， 比 如 发 了 一 批 货 ， 
半天 都 没 接收 到 对 方 的 签字 ， 证明 链 路 拥塞 ， 有 货物 被 丢 齐 了 ， 那 么 就 减缓 发 
送 速度 。 当 有 ACK 被 接收 到 后 ， 我 会 增加 一 次 发 送 货物 的 数量 ， 直 到 再 次 拥 
X. 那么 调度 怎么 知道 这 些 货物 是 送 到 哪里 的 呢 ? 这 是 网 络 层 程序 的 任务 。 


J 加 传 输 层 的 程序 一 定 要 运行 在 通信 双方 的 终端 设备 上 ， 而 不 是 运行 在 中 间 的 网 络 
A 互联 设备 上 。 传 输 层 是 一 种 端 到 端的 保障 机 制 ， 所 谓 端 到 端的 保障 就 是 指数 据 

从 一 端 发 送 到 另 一 端 之 后 ， 对 方 必 须 在 它 的 传输 保障 时 间 中 成 功 收 到 并 处 理 了 
数据 ， 才 能 算 发 送 成 功 。 如 果 只 是 发 送 到 了 对 方 的 网 卡 缓冲 区 ， 此 时 发 生 故 障 ， 
如 突然 断 电 ， 这 就 不 叫 端 到 端的 保障 。 因 为 数据 在 网 卡 缓冲 区 内 ， 还 没有 被 提 
XE) TCP 协议 的 处 理 逻 辑 中 进行 处 理 ， 所 以 不 会 返回 成 功 信号 给 发 送 方 ， 那么 
这 个 数据 包 就 没有 被 发 送 成 功 ， 发 送 方 会 通过 超时 来 感知 到 这 个 结果 。 


7.3.5 网 络 层 
客户 把 货物 交 给 货运 公司 的 时 候 ， 必 须 填写 目的 地 址 (比如 IP 地 址 )。 只 要 一 个 地 址 就 
够 了 ， 至 于 到 这 个 地 址 应 该 做 几 路 公交 车 或 哪 趟 火车 等 问题 ， 客 户 统统 不 管 ， 全 部 交 给 网 
络 层 处 理 。 
11 货运 公司 为 每 件 货物 贴 上 一 个 地 址 标签 (IP 头 )。 
2] 货运 公司 的 调度 们 掌握 了 全 球 范围 的 地 址 信息 (路 由 表 ), 比如 去 某 某 地 方 应 该 走 哪 
条 路 。 
3] 在 选择 了 一 条 路 之 后 ， 就 让 司机 开车 上 路 了 。 
4] 押运 员 进 行 理 货 和 收发 货物 ， 没 事 就 在 后 车 厢 里 睡觉 。 
51 此 时 最 忙 的 是 各 个 中 转 站 的 调度 了 。 货 物 每 次 中 转 到 一 个 地 方 就 交 给 那个 地 方 的 
调度 ， 由 那个 调度 来 决定 下 一 站 应 该 到 哪里 。 
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61 


接班 的 时 候 ， 旧 调度 不 必 告 诉 新 调度 最 终 目的 应 该 怎么 走 ， 因 为 所 有 的 调度 都 知 
道 这 个 目的 ， 一 看 就 知道 该 走 什么 路 了 。 


例如 ， 有 客户 从 新 疆 发 货 到 青岛 ， 由 于 新 疆 没 有 直达 青岛 的 航班 或 者 火车 ， 所 以 只 能 
先 到 达 北 京 ， 然 后 再 从 北京 直达 青岛 。 

新 疆 的 调度 收 到 货物 之 后 ， 他 查找 路 由 表 ， 发 现 要 到 青岛 ， 必 须 先 到 北京 。 新 疆 的 调 
度 会 在 货物 上 贴 上 青岛 的 标签 而 不 是 北京 的 标签 ， 但 是 发 货 的 时 候 ， 调 度 会 选择 将 货物 运 


送 到 新 疆 到 北京 的 火车 上 。 
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7.3.6 


的 地 


fg 


掀 到 达 北 京 之 后 ， 北 京 货 运 分 公司 的 调度 收 到 这 件 货物 ， 首 先 查 看 这 件 货物 的 最 终 
址 ， 然 后 北京 调度 也 去 查找 路 由 表 。 他 的 路 由 表 与 新 疆 调度 的 路 由 表 不 同 ， 在 他 的 
京 到 青岛 有 直达 的 火车 ， 所 以 北京 调度 立即 将 货物 原封 不 动 的 送 上 去 青岛 的 火车 。 
一 站 一 站 的 往 前 送 (路 由 转发 )， 货 物 最 终 从 新 疆 到 达 了 青岛 。 


那么 调度 是 怎么 知道 全 球 地 址 表 ( 路 由 表 ) 的 呢 ? 这 个 表 的 生成 是 一 个 复杂 的 学 
习 阶段 ， 可 以 通过 调度 自行 学 习 或 者 调度 之 间 相 互通 告 ， 也 可 以 通过 手工 录入 。 


辐 地 前 者 称 为 动态 路 由 ， 后 者 称 为 静态 路 由 。 


1 器 充当 的 就 是 调度 的 角色 。 比 如 在 青岛 想 访问 一 个 位 于 北京 的 服务 器 ， 具 体 步 又 


首先 必须 知道 这 个 服务 器 的 IP 地 址 , 然后 用 这 个 IP 地 址 作为 最 终 目的 地 址 组 装 成 
数据 包 ， 发 送 给 位 于 青岛 的 Internet 提供 商机 房 中 的 路 由 器 。 

这 个 路 由 器 收 到 这 个 包 后 ， 解 析 其 目的 IP 地 址 ， 然 后 查找 其 路 由 表 ， 发 现 这 个 目 
的 IP 地 址 的 包 应 该 从 1 号 端口 转发 出 去 ， 所 以 它 立 即将 这 个 包 原 封 不 动 的 向 一 号 
口 转发 。 一 号 口 通过 光缆 直接 连接 到 了 位 于 河北 机 房 中 的 另 一 台 路 由 器 。 


当然 青岛 到 河北 之 间 不 可 能 只 用 一 条 连续 不 断 的 光缆 连接 ， 中 途 肯定 经 过 一 些 


河北 的 路 由 器 收 到 这 个 IP 包 后 , 同样 根据 目的 TP 地 址 查找 路 由 表 , 发 现 这 个 目的 
地 址 的 包 应 该 从 8 号 端口 中 转发 ， 它 立即 将 这 个 包 转 发 向 8 号 端口 。 

8 号 端口 通过 光缆 直接 连接 到 了 位 于 北京 机 房 的 一 台 路 由 器 。 

这 台 路 由 器 同样 查找 路 由 表 做 转发 动作 。 

经 过 一 层 层 的 寻找 ， 最 终 找到 了 北京 的 这 台 服 务 器 ， 将 这 个 包 传送 到 这 台 服 务 器 
的 网 卡 ， 并 提交 到 TCP/IP 协议 处 理 内 存 空间 中 。 

经 过 解析 和 处 理 ， 服 务 器 发 现 最 终 的 数据 是 一 个 TCP 握手 数据 包 ， 然 后 TCP/IP 
程序 立刻 返回 一 个 确认 包 ， 再 次 返回 给 服务 器 一 个 确认 包 。 三 次 握手 完成 后 ， 就 
可 以 向 服务 器 发 送 HTTP. 请 求 来 获取 它 的 网 页 资源 了 。 


数据 链 路 层 


数据 链 路 层 就 是 指 连通 两 个 设备 之 间 的 链 路 ， 数 据 要 经 过 这 条 链 路 来 传递 给 对 方 。 数 
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据 链 路 层 的 程序 将 上 层 的 数据 包 再 次 打包 成 对 应 链 路 的 特定 格式 ， 按 照 对 应 链 路 的 规 
链 路 上 传输 到 对 方 。 


则 在 


数据 链 路 就 好 比 交 通 规则 。 在 高 速 公路 或 者 铁路 上 是 需要 遵守 规则 的 ， 不 能 超速 
能 乱 停车 ， 不 能 开车 灯 到 最 亮 等 。 上 路 之 前 ， 先 要 看 看 公路 的 质量 怎么 样 ， 是 不 是 适 
车 或 者 先 和 对 方 商量 一 下 传输 的 事宜 。 这 就 是 链 路 层 协商 。 

链 路 层 的 作用 

首先 是 协商 链 路 参数 ， 比 如 双 工 、 速 率 、 链 路 质量 等 。 
其 次 是 将 上 层 数据 内 容 打包 成 帧 ， 加 上 同步 头 进行 传输 ， 一 次 传输 一 句 或 者 一 个 
一 个 字符 的 传输 (取决 于 上 层 的 选择 ] 。 
最 后 ， 链 路 层 程 序 调 用 物理 层 提供 的 接口 ， 将 帧 提交 给 物理 层 。 
相对 于 传输 层 的 保障 来 说 ，0SI 的 数据 链 路 层 也 提供 一 些 保障 机 制 。 比 如 一 些 链 路 


议会 在 每 个 帧 后 面 加 一 个 校 验 字段 ， 如 果 对 方 收 到 的 帧 的 校 验 值 与 这 个 校 验 字段 不 符 ， 


证 明 链 路 受到 干扰 ， 数 据 产生 畸变 ， 那 么 就 将 这 一 帧 视 为 无 效 帧 直接 丢弃 ， 不 会 向 上 
告 这 个 错误 ， 因 为 上 层 对 链 路 层 的 错误 不 关心 。 而 接收 方 的 传输 层 协议 会 感知 某 个 包 
到 达 或 者 不 完整 ， 接 收 方 的 传输 层 协议 会 要 求 发 送 方 重新 传送 这 个 不 完整 或 者 没有 接 


的 包 ， 也 就 是 端 到 端的 保障 传输 。 链 路 层 只 侦 错 ， 不 纠 错 ， 而 传输 层 既 侦 错 ， 又 纠 错 。 


根据 OSI 模型 ， 两 台 路 由 器 或 者 交换 机 之 间 传 送 数据 也 属于 两 个 系统 间 的 互联 ， 
它们 也 一 定 遵循 051 的 模型 。 下 面 就 来 分 析 一 下 ， 两 台 PC 之 间 通 信和 两 个 路 由 器 之 间 
有 什么 区 别 。PC 间 通 信 我 们 上 文 已 经 描述 过 ， 下 面 来 讲 一 下 路 由 间 的 通信 。 
简单 的 路 由 器 设备 工作 在 OS 的 第 三 层 ， 即 网 络 层 。 它 只 处 理 下 三 层 的 内 容 ， 只 
三 层 的 处 理 迎 辑 ， 而 没有 上 4 层 的 处 理 逻 辑 。 路 由 器 收 到 包 后 ， 只 检查 包 中 的 IP 地 址 
会 改变 任何 IP 头 之 上 的 其 他 内 容 ， 最 简单 的 路 由 器 甚至 不 会 改变 IP 头 。 在 一 些 带 有 
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NAT 功能 的 路 由 器 上 ， 可 能 会 对 IP 包 的 源 或 者 目的 TP 地 址 做 修改 。 数 据 包 流 入 路 由 器 后 ， 


路 由 器 只 分 析 到 第 三 层 的 IP 头 ， 便 可 以 根据 路 由 表 完 成 转发 逻辑 。 


如 图 7.1 所 示 为 通信 路 径 上 各 个 设备 所 作用 的 层次 示意 图 ， 具 体 如 下 。 
PCIA PCHB 
Eum] L sz SERE 
SERIES ERUPE 

ewm 3a [cewpsucs d 
[— EEKEER-— 1i — 15021: HAME 
| 第 3 层 
T T 
P - T 
ms) n) 
à s 
m mda LEREZ ] | 
路 由 器 A 路 由 器 B 


图 7.1 通信 路 径 上 各 个 设备 所 作用 的 层次 


11 左边 的 PC 机 A 连接 到 路 由 器 A 的 以 太 网 卡 1 上， 路 由 器 A 的 网 卡 2 与 路 由 器 B 
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3] 


4) 


5] 


7] 


的 网 卡 2 相连 ， 右 边 的 PC 机 B 连接 到 路 由 器 B 的 网 卡 1 上 。 此 时 , 要 用 PC 机 A 
上 的 正 浏览 器 访问 位 于 PC 机 B 上 的 Web 服务 ,在 TE 浏览 器 的 地 址 栏 中 输入 PC 
机 B 的 IP 地 址 并 回 车 后 ，IE 浏览 器 便 会 调用 WinSock 接口 来 访问 操作 系统 内 核 
的 TCP/IP 协议 栈 。IE 浏览 器 告诉 TCP/IP 协议 栈 它 所 访问 的 目的 IP 地 址 和 目的 端 
口 ， 并 把 要 发 送 的 数据 告诉 TCP/IP 协议 栈 。IE 浏览 器 发 送 给 PC 机 B 的 数据 ， 当 
然 是 一 个 HTTP GET 请 求 ， 具 体内 容 属于 上 三 层 ， 在 这 里 不 关心 也 不 做 分 析 。 
TCP/IP 协议 栈 收 到 这 个 数据 之 后 ， 发 现 IE 浏览 器 与 PC 机 B 当前 并 不 存在 连接 ， 
所 以 它 首先 要 向 PC 机 B 上 的 TCP/IP 协议 栈 发 起 连接 请 求 , 也 就 是 TCP 的 三 次 握 
手 过 程 。PC 机 A 的 TCP/IP 协议 栈 先 组 装 第 一 次 握手 IP 包 , 组 好 后 发 送 给 操作 系 
统 内 核 缓冲 区 ， 内 核 调用 网 卡 驱动 程序 从 缓冲 区 内 将 这 个 IP 包 编 码 并 在 线路 上 传 
递 出 去 。 握 手数 据 包 很 小 ， 只 要 一 个 以 太 网 帧 就 可 以 容纳 。 

这 个 帧 最 终 到 达 路 由 器 A 的 网 卡 1 缓冲 区 内 。 网 卡 1 产生 中 断 信 号 ， 然 后 将 这 个 
帧 去 掉 以 太 网 头 ， 发 送 到 路 由 器 A 的 内 存 中 ,等 待 IP 转发 逻辑 模块 的 处 理 。 运 行 
在 路 由 器 A 上 的 IP 转发 逻辑 模块 ， 其 实 就 是 IP 路 由 协议 计算 模块 ， 这 个 模块 分 
析 此 IP 包 的 头 部 目的 IP 地址， 查找 路 由 表 以 确定 这 个 包 将 从 哪个 接口 发 送出 去 。 
IP 路 由 运算 一 定 要 快速 高 效 ， 才 不 至 于 对 网 络 性 能 造成 瓶颈 。 

路 由 器 A 查找 路 由 表 发 现 这 个 包 应 当 从 网 卡 2 转发 出 去 ， 所 以 它 立 即将 这 个 包 发 
送 到 网 卡 2 并 通过 线路 传送 到 了 路 由 器 B 的 网 卡 2 上 。 经 过 同样 的 过 程 ， 路 由 器 
B 将 这 个 包 路 由 到 PC 机 B 的 网 卡 缓冲 区 内 ，PC 机 B 网 卡 产生 中 断 ， 将 这 个 包 通 
过 总 线 传送 到 PC 机 B 的 TCP/IP 协议 栈 缓冲 区 内 存 。 

运行 在 PC 机 B 上 的 TCP/IP 协议 栈 程 序 分 析 这 个 包 ， 发 现 IP 是 自己 的 ， TCP 端 
口号 为 80, 握手 标识 位 为 二 进 制 1， 就 知道 这 个 连接 是 由 源 地 址 IP 所 在 的 设备 向 
自己 的 80 端口 ， 也 就 是 Web 服务 程序 所 监听 的 端口 发 起 的 握手 连接 。 根 据 这 个 
逻辑, TCP/IP 协议 栈 返回 握手 确认 IP 包 给 PC 机 A, PC 机 A 再 返回 一 个 最 终 确认 
包 ， 这 样 就 完成 了 TCP 的 三 次 握手 。 

握手 成 功 后 , PC 机 A 上 的 TCP/IP 协议 栈 立 即将 其 缓冲 区 内 将 由 TE. 浏览 器 发 送 过 
来 的 HTTP GET 请 求 数据 组 装 成 TCP/IP 数据 包 , 发 送 给 PC BL B. PC 机 B 得 到 这 
个 数据 包 之 后 ， 分 析 其 TCP 端口 号 ， 并 根据 对 应 关系 将 数据 放 到 监听 这 个 端口 的 
应 用 程序 的 缓冲 区 内 存 。 

应 用 程序 收 到 这 个 GET 请 求 之 后 ， 便 会 触发 Web 服务 罗 辑 流程 ， 返 回 Web 网 页 
数据 ， 同 样 经 由 PC 机 B ff) TCP/IP 协议 栈 ， 发 送 给 PC 机 A。 


上 述 过 程 是 一 个 正常 通信 的 过 程 。 


提 
* 


His 


我 


如 果 在 PC 机 B 向 PC 机 A 传送 网 页 数据 的 时 候 , 路 由 器 A 和 路 由 器 B 之 间 的 
链 路 发 生 了 几 秒 钟 的 短暂 故障 后 又 恢复 连通 性 ， 这 期 间 丢 失 了 很 多 数据 。 虽 然 
这 样 ， 依 靠 TCP 协议 的 纠 错 功能 ， 数 据 依 然 会 被 顺序 的 传送 给 PC 机 A. 


门 就 来 分 析 一 下 TCP 是 如 何 做 到 的 。 假 如 ， 在 链 路 中 断 的 时 候 ， 恰 好 有 一 个 帧 在 链 


路 上 传送 。 发 生 故 障 后 ， 这 个 帧 就 永久 的 丢失 了 。 即 使 链 路 恢复 后 ， 路 由 器 也 不 会 重新 传 
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送 这 个 帧 。 但 PC 机 B 由 于 很 长 时 间 都 没有 收 到 PC 机 A 的 确认 信息 ， 便 知道 刚才 发 送 的 数据 
包 可 能 已 经 被 中 途 的 网 络 设备 丢弃 了 ， 所 以 PC 机 B 上 的 TCP 协议 将 重新 发 送 这 个 数据 包 。 

THR 
站 未 接收 到 确认 的 包 会 存放 在 缓冲 区 内 ， 不 会 删除 ， 直 到 收 到 对 方 确认 。 
SHS 


所 以 ， 即 便 中 途经 过 的 网 络 设备 将 这 个 包 丢 弃 了 ， 运 行 在 通信 路 径 最 两 端的 TCP/IP 协 
议 ， 依 然 会 重 传 这 些 丢 弃 的 包 ， 从 而 保障 了 数据 传输 ， 这 也 就 是 端 到 端的 传输 保障 。 只 有 
端 到 端的 保障 ， 才 是 真正 的 保障 ， 因 为 中 途 网 络 设备 不 会 缓存 发 送 的 数据 ， 更 不 会 自动 
重 传 。 
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物理 层 就 是 研究 在 一 种 介质 上 (或 者 真空 ] 如 何 将 数据 编码 发 送 给 对 方 。 如 果 选 择 公路 来 
跑 汽 车 ， 要 根据 沥青 路 或 者 土路 来 选用 不 同 的 轮胎 ， 如 果 选 择 利 用 空气 来 跑 飞 机 ， 则 需 根 
据 不 同 的 气流 密度 来 调整 飞行 参数 ， 如 果 选 择 了 真空 ， 则 只 能 利用 电磁 波 或 者 光 来 传输 ， 
可 以 根据 障碍 物 等 因素 选择 不 同 波长 的 波 来 承载 信号 ， 如果 选 择 了 海水 ， 则 要 根据 不 同 的 
浪 高 来 调整 航海 参数 。 这 些 都 是 物理 层 所 关心 的 。 

物理 层 和 链 路 层 

物理 层 和 链 路 层 是 很 容易 混 清 的 两 个 层次 。 链 路 层 是 控制 物理 层 的 。 物 理 层 好 比 一 个 
策 头 策 脑 的 传送 带 ， 它 不 停 地 在 运转 ， 只 要 有 东西 放 到 传送 带 上 就 会 被 运输 到 对 方 。 不 管 
给 它 什 么 东西 ， 它 都 一 视 同仁 并 且 不 会 停 下 。 

役 设 你 我 之 间 有 一 个 不 停 运转 的 传送 带 ， 某 时 刻 我 有 一 大 批 货物 要 传送 给 你 ， 是 否 可 
以 一 股 脑 的 把 这 些 货物 不 停 地 放 到 传送 带 上 ， 一 下 子 传送 给 你 呢 ? 当然 可 以 ， 但 是 那样 将 
没有 整理 货物 的 时 间 ， 永 远 处 于 不 停 地 从 传送 带 上 拿 下 货物 的 状态 ， 货 物 越 堆 越 多 ， 最 终 
造成 崩溃 。 如 果 能 将 货物 一 批 一 批 的 传送 过 来 ， 不 但 给 予 了 双方 充足 的 整理 货物 的 时 间 ， 
而 且 使 得 货物 传输 显得 井井有条 。 而 将 货物 分 批 这 件 事 ， 传 送 带 本 身 是 不 会 做 的 ， 只 能 靠 
TCP 或 者 IP 来 做 。 链 路 层 给 每 批 货物 附加 上 一 些 标志 性 的 头 部 或 者 尾部 ， 接 收 方 看 到 这 些 
标志 ， 就 知道 一 批 货物 又 来 了 ， 并 做 接收 动作 。 

每 种 链 路 ， 都 有 自己 的 一 个 最 适 分 批 大 小 ， 叫 做 最 大 传输 单元 ，MTU。 每 次 传输 ， 链 
路 上 最 大 只 能 传输 MTU 大 小 的 货物 。 如 果 要 在 一 次 传输 中 传送 大 于 这 个 大 小 的 货物 ， 超 过 
了 链 路 接收 方 的 处 理 春 吐 量 ， 则 可 能 造成 接收 方 缓冲 区 溢出 或 者 强行 截断 等 错误 。 

TCP 和 IP 这 两 个 协议 程序 都 会 给 货物 分 批 。 第 一 个 分 批 的 是 TCP， 下 到 IP 这 一 层 ， 又 
会 根据 链 路 层 的 分 批 大 小 来 将 TCP 已 经 分 批 的 货物 再 次 分 批 ， 如 果 TCP 分 批 小 于 链 路 层 分 
批 ， 则 IP 不 需要 再 分 。 如 果 大 于 链 路 层 的 分 批 ， 则 IP 会 将 货物 分 批 成 适合 链 路 层 分 批 的 大 
小 。 被 IP 层 分 批 的 货物 ， 最 终 会 由 接受 方 的 IP 层 来 再 组 装 合并 ， 但 是 由 TCP 分 批 的 货物 
接收 方 的 TCP 层 不 会 合并 ，TCP 可 以 任意 分 割 货物 进行 发 送 而 接收 的 时 候 并 不 做 合并 的 动 
作 。 对 货物 的 处 理 分 析 全 部 交 由 上 层 应 用 程序 来 处 理 ， 所 以 利用 TCP/IP 通信 的 应 用 程序 必 
须 对 自己 所 发 送 的 数据 有 定 界 措施 。 
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说 白 了 ， 物 理 层 就 是 用 什么 样 的 线 缆 、 什 么 样 的 接口 、 什 么 样 的 物理 层 编码 方式 ， 归 
零 还 是 不 归 零 ， 同 步 方式 ， 外 同步 还 是 内 同步 。 高 电压 范围 ， 低 电压 范围 ， 电 气 规范 等 的 
东西 。 

通过 物理 层 编码 后 ， 我 们 的 数据 最 终 变 成 了 一 串 bit 流 ， 通 过 电路 振荡 传输 给 对 方 。 对 
方 收 到 bit 流 后 ， 提 交 给 链 路 层 程序 ， 由 程序 处 理 ， 剥 去 链 路 层 同步 头 、 帧 头 帧 尾 、 控 制 字 
符 等 ， 然 后 提交 给 网 络 层 处 理 程序 (TCP/IP 协议 栈 等 )，IP 头 是 个 标签 ， 收 件 人 通过 IP 头 来 
查看 这 个 货物 是 谁 发 的 。TCP 头 在 完成 押运 使 命 之 后 ， 还 有 一 个 作用 就 是 确定 由 哪个 上 层 
应 用 程序 来 处 理 收 到 的 包 ( 用 端口 号 来 决定 )。 应 用 程序 收 到 TCP 提交 的 数据 后 ， 进 行 解析 
处 理 。 


7.4 OSI 与 网 络 


网 络 就 是 由 众多 节点 通过 某 种 方式 互相 连通 之 后 所 进行 的 多 点 通信 系统 。 既 然 牵 扯 到 
节点 与 节点 间 的 通信 ， 那 么 就 会 符合 0SI 模型 。 

首先 我 们 看 看 计算 机 总 线 网 络 。CPU、 内 存 、 外 设 三 者 通过 总 线 互 相连 接 起 来 ， 当 然 总 
线 之 间 还 有 北桥 和 南 桥 ， 这 两 个 芯片 就 犹如 IP 网 络 中 的 TP 路 由 器 或 者 网 桥 。CPU 与 内 存 这 
两 个 部 件 都 连接 到 北桥 这 个 路 由 器 上 , 然后 北桥 连接 到 南 桥 , 南 桥 下 连 一 个 HUB 总 线 , HUB 
上 连接 了 众多 的 外 设 ， 这 些 外 设 共享 这 个 HUB 与 南 桥 进行 通信 。 


i 说 到 HUB， 不 要 认为 是 专 指 以 太 网 中 的 HUB，HUB 的 意思 就 是 一 条 总 线 。 如 
果 在 这 条 总 线 上 运行 以 太 网 协议 ， 则 就 是 以 太 网 HUB， 如 果 在 这 个 HUB 上 运 
相遇 行 的 是 PCI 协议 ， 则 就 是 PCIHUB(PCI 总 线 )。 


连接 到 以 太 网 HUB 上 的 各 个 节点 , 采用 CSMA/CD 的 竞争 机 制 来 获取 总 线 使 用 权 ，PCI 
总 线 同样 采用 仲裁 竞争 机 制 ， 只 是 实现 方式 不 同 。 实 现 方式 也 可 以 称 其 为 协议 ， 所 以 有 以 
太 网 HUB 和 PCI HUB 之 分 ， 也 就 是 说 HUB 上 运行 的 是 不 同 的 协议 。 当 然 以 太 网 HUB 设计 
要 求 远 远 比 PCI HUB 低 ， 速 度 也 低 很 多 。 

图 7.2 所 示 的 模型 是 一 个 常见 的 小 型 网 络 , 几 台 PC 机 通过 以 太 网 HUB 和 路 由 器 互相 连 
接 起 来 ， 然 后 通过 运行 在 每 台 PC 机 上 的 TCP/IP 协议 来 通信 。 路 由 器 的 作用 只 是 分 析 目 的 
IP 地 址 从 而 做 转发 动作 。 

而 我 们 再 观察 一 下 图 7.3。 发 现 除了 连接 各 个 组 件 之 间 的 线路 变 成 了 并 行 多 线路 之 外 ， 
其 他 没有 什么 大 的 变化 。 但 是 ， 这 两 个 网 络 的 通信 过 程 ， 是 有 区 别 的 。 上 面 的 网 络 利用 一 
种 高 级 复杂 的 协议 一 一 TCP/IP 协议 来 通信 ， 而 图 7.3 所 示 的 网 络 是 通过 直接 总 线 协 议 进 行 
通信 。 在 下 面 的 网 络 中 ， 各 个 部 件 之 间 的 连 线 非常 短 ， 速 度 很 高 且 非 常 稳定 ， 自 身 就 可 以 
保障 数据 的 稳定 传输 ， 所 以 不 需要 TCP 这 种 传输 保障 协议 的 参与 。 在 上 面 的 网 络 中 ， 各 个 
部 件 之 间 可 能 相隔 很 远 的 距离 ， 链 路 速度 慢 ， 稳 定性 不 如 主板 上 的 导线 高 ， 所 以 必须 运行 
一 种 端 到 端的 传输 保障 协议 ， 比 如 TCP 协议 ， 来 保障 端 到 端的 数据 传输 。 
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此 外 ， 上 面 的 两 个 网 络 模型 ， 其 本 质 是 相同 的 ， 因 为 它们 两 个 都 是 从 基本 原理 发 展 而 
来 的 。 我 们 说 ,这 两 个 网 络 模型 都 符合 0SI 这 个 抽象 模型 。 再 其 者 , 这 两 个 模型 都 符合 “ 连 、 
找 、 发 ”抽象 模型 。 
e 首先， 所 有 部 件 之 间 都 用 了 导线 来 连接 。 对 于 第 一 个 模型 ， 导 线 为 双 绞 线 或 者 其 
他 形式 的 外 部 电线 ， 对 于 第 二 个 模型 ， 导 线 为 电路 板 上 印刷 的 蛇行 线 。 这 就 是 所 
谓 “ 连 ”。 

e 其次， 这 两 个 模型 中 都 有 寻 址 的 逻辑 。 第 一 个 模型 利用 IP 地 址 作为 寻 址 方法 ， 第 
-个 模型 中 利用 地 址 总 线 作 为 寻 址 方法 。 这 就 是 所 谓 “ 找 ”。 


管 来 传递 信息 , 这 就 是 “ 连 ”; 通过 配 体 - 受 体 关系 来 找到 目标 , 这 就 是 “ 找 ”; 
密 国 血液 流动 将 配 体 分 子 传递 (广播 ) 到 人 体 的 每 个 角落 ， 这 就 是 “发 ”。 我 国 分 子 
生态 学 创始 人 向 近 敏 曾经 提出 分 子 信息 网 络 学 说 ， 就 恰恰 体现 了 网 络 的 思想 。 
在 分 子 上 层 ， 还 有 细胞 信息 网 络 学 说 和 遗传 信息 网 络 学 说 ， 它 们 一 个 比 一 个 高 
层 ， 一 个 比 一 个 抽象 。 然 而 分 子 信 息 网 络 也 不 一 定 就 是 最 底层 的 网 络 ， 或 许 还 
有 原子 信息 网 络 ， 电 子 信 息 网 络 等 。 


ore 同样 符合 OSI 模型 和 “ 连 找 发 ”模型 。 细 胞 之 间 通 过 血 
m 


e 最后， 第 一 个 模型 利用 TCP 协议 进行 有 保障 的 数据 发 送 动 作 ， 第 二 个 模型 中 由 于 
线路 非常 稳定 ， 不 需要 高 级 协议 参与 ， 而 是 直接 利用 电路 逻辑 从 目标 部 件 将 数据 
复制 过 来 。 这 就 是 所 谓 “ 发 ”。 
网 中 有 网 
我 们 在 以 前 的 章节 中 ， 多 次 提 到 过 “网 中 有 网 ”这 个 词 。 而 我 们 现在 再 来 体会 一 下 ， 
发 现 计 算 机 系统 、 计 算 机 网 络 、Internet， 这 些 系 统 ， 确 实 可 以 用 网 中 有 网 来 描述 。 计 算 机 
总 线 这 个 微型 网 络 ， 通 过 一 个 网 卡 ， 接 入 以 太 网 交换 机 或 者 HUB， 与 其 他 计算 机 总 线 网 络 
形成 一 个 局 域 网 ， 然 后 这 个 局 域 网 再 连接 到 路 由 器 网 关 ， 从 而 连接 到 更 大 的 网 络 ， 甚 至 
Internet。 

所 有 的 网 络 ， 都 按照 OSI 和 “ 连 找 发 ”模型 有 条 不 紊 的 通信 交互 着 ， 为 我 们 服务 。 分 
子 之 间 和 细胞 之 间 神 奇 的 相互 作用 着 ， 地 球 和 月 球 有 条 不 率 的 旋转 运行 着 ， 太 阳 系 缓慢 的 
自转 ， 并 围绕 着 更 大 的 银河 系 旋转 。 
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9 一 站 

Fibre Channel 
网 状 通道 协议 
OSI 


本 书 的 第 6 章 末 尾 ， 引 出 了 SAN 的 概念 。SAN 首先 是 个 网 络 ， 而 不 是 指 存储 设 
备 。 当 然 ， 这 个 网 络 是 专门 用 来 给 主机 连接 存储 设备 用 的 。 这 个 网 络 中 有 着 很 多 的 元 
件 ， 它 们 的 作用 都 是 为 了 让 主机 更 好 的 访问 存储 设备 。 

SAN 概念 的 出 现 ， 只 是 个 开头 而 已 ， 因 为 按照 SCSI 总 线 16 个 节点 的 限制 ， 不 可 
能 接 入 很 多 的 磁盘 。 要 扩大 这 个 SAN 的 规模 ， 还 有 很 长 一 段 路 要 走 。 如 果 仅 仅 用 并 行 
SCSI 总 线 ， 那 么 SAN 只 能 像 PCI 总 线 一 样 作为 主机 的 附属 品 ， 而 不 可 能 成 为 一 个 真 
正 独 立 的 “网 络 ”。 人 必须 找到 一 种 可 寻 址 容量 大 、 稳 定性 强 、 速 度 快 、 传 输 距 离 远 的 
网 络 结构 ， 从 而 连接 控制 器 和 磁盘 或 只 有 连接 控制 器 到 主机 。 

干脆 破釜沉舟 ， 独 立 研发 一 套 全 新 的 网 络 传输 系统 ， 专 门 针 对 局 部 范围 的 高 速 高 

然而 ， 形 成 一 套 完整 的 网 络 系统 并 非 易 事 ， 首 先 必须 得 有 个 蓝图 。 这 个 蓝图 是 否 
有 现成 可 以 参考 的 呢 ? 当然 有 ，OSI 就 是 一 个 经 典 的 蓝图 。OSI 是 对 任何 互联 系统 的 
抽象 。 
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8.1 FC 网 络 一 一 极 佳 的 候选 角色 


FC 协议 自从 1988 年 出 现 以 来 ， 已 经 发 展 成 为 一 项 非常 复杂 、 高 速 的 网 络 技术 。 它 最 
初 并 不 是 研究 来 作为 一 种 存储 网 络 技术 的 。 最 早 版 本 的 FC 协议 是 一 种 为 了 包括 IP 数据 网 
在 内 的 多 种 目的 而 推出 的 高 速 骨干 网 技术 ， 它 是 作为 惠普 、Sun 和 IBM 等 公司 组 成 的 R&D 
实验 室 中 的 一 项 研究 项 目 开始 出 现 的 。 曾 经 有 几 年 ，FC 协议 的 开发 者 认为 这 项 技术 有 一 天 
会 取代 100BaseT 以 太 网 和 FDDI 网 络 。 在 20 世纪 90 年 代 中 期 , 还 可 以 看 到 研究 人 员 关 于 
FC 技术 的 论文 。 这 些 论文 论述 了 FC 协议 作为 一 种 高 速 骨干 网 络 技术 的 优点 和 能 力 ， 而 把 
存储 作为 不 重要 的 应 用 放 在 了 第 二 位 。 

Fibre Channel 也 就 是 “网 状 通道 ”的 意思 ， 简 称 FC。 


Channel， 而 不 是 Fiber Channel， 后 者 被 翻译 为 “光纤 通道 ”， 甚 至 接口 为 FC 
的 磁盘 也 被 称 为 “光纤 磁盘 *” ， 其 实 这 些 都 是 很 滑稽 的 误解 。 


ya | ET Fiber 和 Fibre 只 有 一 字 之 差 ,所 以 产生 了 很 多 流传 的 误解 ,EC 只 代表 Fibre 
* 
rí Hc 


不 过 到 目前 为 止 ， 似 乎 称 FC 为 光纤 而 不 是 直接 称 其 FC 的 文章 和 资料 更 多 。 这 种 误解 
使 得 初 入 存储 行业 的 人 摸 不 着 头脑 ， 认 为 FC 就 是 使 用 光纤 的 网 络 ， 甚 至 将 FC 与 使 用 光纤 
传输 的 以 太 网 链 路 混淆 起 来 。 在 本 书 内 不 会 使 用 “光纤 通道 ”或 者 “光纤 磁盘 ”这 种 定义 ， 
而 统统 使 用 FC 和 “FC 磁盘 ”。 相 信 在 阅读 完 本 章 之 后 ， 大 家 就 不 会 再 混淆 这 些 概念 了 ， 
会 知道 FC 与 光纤 根本 就 没有 必然 地 联系 。 

Fibre Channel 可 以 称 其 为 FC 协议 ， 或 FC 网 络 、FC 互联 。 像 TCP/IP 一 样 ，FC 协议 集 
同样 具备 TCP/IP 协议 集 以 及 以 太 网 中 的 很 多 概念 ， 比 如 FC 交换 、FC 交换 机 、FC 路 由 、 
FC 路 由 器 ，SPF 路 由 算法 等 。 我 们 完全 可 以 类 比 地 看 待 TCP/IP 协议 以 及 FC 协议 ， 因 为 它 
们 都 遵循 OSI 的 模型 。 任 何 互联 系统 都 逃 不 过 OS 模型 ， 不 可 能 存在 某 种 不 能 归属 于 OSI 
中 某 个 层次 的 元 素 。 

下 面 我 们 用 OSI 来 将 FC 协议 进行 断层 分 析 。 


811 物理 层 


OSI 的 第 一 层 就 是 物理 层 。 作 为 一 种 高 速 的 网 络 传输 技术 ，FC 协议 体系 的 物理 层 具有 
比较 高 的 速度 ， 从 1Gb/s. 2Gb/s. 4Gb/s 到 当前 的 8Gb/s。 作 为 高 速 网 络 的 代表 ， 其 底层 
也 使 用 了 同步 串 行 传输 方式 ， 而 且 为 了 保证 传输 过 程 中 的 电 直 流 平衡 、 时 钟 恢复 和 纠 错 等 
特性 ， 其 传输 编码 方式 采用 NMb 编码 方式 。 
为 了 实现 远 距离 传输 ， 传 输 介质 起 码 要 支持 光纤 。 铜 线 也 可 以 ， 但 是 距离 受 限 制 。FC 
协议 集中 物理 层 的 电气 子 层 名 为 FC0， 编 码 子 层 名 为 FC1。 
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1. 字符 编码 以 及 FC 帧 结构 


现代 通信 在 链 路 
传输 。 
FC 协议 定义 了 一 


FC 协议 在 链 路 


中 定义 的 那些 控制 字符 ， 


尾 


层 一 般 都 是 成 帧 的 ， 也 就 是 将 上 层 发 来 的 一 定数 量 的 位 流 打 包 加 头 
层 也 是 成 帧 的 。 既 然 需要 成 帧 ， 那 么 一 定 要 定义 帧 控制 字符 。 

系列 的 帧 控制 策略 及 对 应 的 字符 。 这 些 控制 字符 不 是 ASCH uk 符 集 
而 是 单独 定义 了 一 套 专门 用 于 FC 协议 的 字符 集 ， 称 为 “有 序 集 ”。 


TJI 


个 字 节 总 


会 


中 的 每 个 控制 字符 其 实 是 


由 于 还 没有 标准 名 词 出 
这 种 镜像 编码 方式 。 
含 的 1 的 个 数 来 选择 下 一 个 
-个 10 位 中 就 编码 成 1 的 个 数 比 0 的 个 数 多 ， 这 样 总 体 平衡 了 1 和 0 的 个 数 。 


4 个 8 位 字 节 组 成 的 ， 称 为 一 个 “ 字 ”(word)， en 
8 10b 编码 之 后 的 0011111010( 左 旋 ] 或 者 1100000101( 右 旋 )。 
网， 所 以 不 得 不 引入 “左旋 ”和 “左旋” 这 两 个 化 学 名 词 来 描 
左旋 和 右 旋 是 指 1 和 0 对 调 。 编 码 电路 可 以 根据 上 一 个 10 位 中 所 包 
10 位 中 1 的 个 数 。 如 果 上 一 个 1 的 个 数 比 0 的 个 数 少 , 那么 下 


是 经 过 


0011111010 左旋 或 者 1100000101 右 旋 ，FC 协议 给 这 个 字符 起 了 一 个 名 字 ， 叫 做 


K28.5. 


也 就 是 说 高 三 位 此 
码 。 然 后 再 加 上 一 
字符 编码 
cle AR ITI SER 
每 个 控制 字 均 
组 成 的 字 来 代表 
定义 了 相关 的 


这 个 字 未 经 过 8 10b 编码 之 前 的 值 是 
11100( 十 进 制 的 28)， 
进 制 是 


EAMA, 它 的 


:十 六 进 制 BC， 即 10111100， 它 的 低 5 位 为 
高 3 位 为 101( 十 进 制 的 5)。FC 协议 便 对 这 个 字 表 示 为 “K28.5”， 

5， 低 5 位 的 十 进 制 是 28， 这 样 便 可 以 组 合成 相应 的 二 进 制 位 
描述 符号 K( 控 制 字 符 ] 或 者 D( 数 据 字符 ]。K28.5 这 个 字符 没有 ASCI 
: 进 制 流 中 又 包含 了 连续 的 5 个 1， 非常 容易 被 电路 识别 ， 当 然 符 


还 有 好 几 个 。 


由 K28.5 字符 开头 , 后 接 3 个 其 他 字符 (可 以 是 数据 字符 )， 由 这 4 个 字符 


-种 意义 ， 比 如 SOF(Start Of Frame), EOF(End Of Frame)^5. 


空 制 字 之 后 ， 需 要 定义 一 个 帧 头 了 。FC 协议 定义 了 一 个 24 字 节 的 帧 头 。 


以 太 网 帧 头 才 14 字 节 , 用 起 来 还 绰绰有余 , 为 什么 FC 需要 定义 24 字 节 呢 ? 在 这 个 问题 上 ， 


协议 的 设计 者 独树一帜 ， 因 为 这 24 字 节 的 帧 头 不 但 包含 了 寻 址 功能 ， 而 且 包含 了 传输 保障 
的 功能 。 网 络 层 和 传输 层 的 逻辑 都 用 这 24 字 节 的 信息 来 传递 。 


的 TCP/IP 网 络 ， 它 的 开销 一 共 是 : 14 字 节 (以 太 网 帧 头 )+20 字 
"IP 头 )+20 字 节 (TCP 头 )=54 Fi, RAIE TCP 头 换 成 8 字 节 的 UDP 头 一 共 是 42 字 节 。 
这 就 注定 了 FC 的 开销 比 以 太 网 加 上 TCP/IP 的 开销 要 小 ， 而 实现 的 功能 都 差不多 。 

可 以 看 出 来 , 以 太 网 中 用 于 寻 址 的 开销 太 大 , 一 个 以 太 网 MAC 头 和 一 个 IP 头 这 两 个 就 
是 已 经 34 字 节 了 ， 更 别 说 再 加 上 TCP AT. m FC 将 寻 址 、 传 输 保障 合并 起 来 放 到 一 个 头 
， 长 度 才 24 字 节 。 图 8.1 所 示 的 是 一 个 FC 帧 的 示意 图 ， 图 8.2 是 一 个 FC 帧 编码 之 后 的 
表示 。 


2. 链 路 层 流量 控制 

在 链 路 层 上 ，FC 定义 了 两 种 流 控 策 略 ， 一 种 为 端 到 端的 流 控 ， 另 一 种 为 缓存 到 缓存 的 
流 控 。 端 到 端 流 控 比 缓存 到 缓存 流 控 要 上 层 和 高 级 。 在 一 条 链 路 的 两 端 ， 首 先 面 对 链 路 的 
一 个 部 件 就 是 缓存 。 接 收 电 路 将 一 帧 成 功 接收 后 ， 就 放 入 了 缓存 中 。 如 果 由 于 上 位 程序 处 
理 缓慢 而 造成 缓存 已 经 充满 ，FC 协议 还 有 机 人 制 来 通知 发 送 方 减缓 发 送 。 如 果 链 路 的 一 端 是 


我 们 知道 ， 基 于 以 太 


中 
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FC 终端 设备 ， 另 一 端 是 FC 交换 机 ， 则 二 者 之 间 的 缓存 到 缓存 的 流量 控制 只 能 控制 这 个 FC 


终端 到 FC 交换 机 之 间 的 流量 。 


000001: X28.5 D21.4 D21.5 D21.5 <€———— ME Orkered Sat 
000002: K28.5 D2L.4 D21.5 D21.5 4—— — — IE Orres Sat 
000003: K28.5 D21.5 D22.2 D22.2 4— — Sartofframe Delimiter 
000094: DOS.0 D00.0 D00.0 D02.0 &—— ——— Framo Header (Mord0) 
000005: D00.0 D00.0 D00.0 D04.0 4&—— — Frame Header Word 1) 
000006: D08.0 D09.4 D00.0 D00.0 4——— — — Frame Header Word2) 
000007: D31.7 D00.0 D00.0 D00.0 «—— — Fame Header Word3) 
000008: D10.1 D10.1 D31.7 D31.7 &———— — Fame Haar (Word 4) 
1000009: 000.0 D00.0 D00.0 D00.0 4—— T7 Fame Heer (Words) 
00000A: D00.0 D00.0 D00.0 D00.0 4—— ——— Paycad Word) 
000008: D00.0 D00.0 D02.0 D00.0 &—————— Pavat ifo 1) 


000008: X28.5 D21.5 D21.3 D21.3 4——— —— Entat Frame Delimiter 
00000P: K28.5 D21.4 D21.5 D21.5 4——— —— ME Orra Sd 
000010: K28.5 D21.4 D21.5 D21.5 4——— IME Ordered Set 
000011: K28.5 D21.4 D10.2 D10.2 4— — ——  RDY Oered Sot 
000012: 128.5 D21.4 D21.5 D21.5 4—— — — ME Oar Sa 


图 8.1 一 个 FC 帧 的 结构 图 3.2_ 一 个 完整 的 FC 帧 的 有 序 集 表示 
而 通信 的 最 终 目 的 是 网 络 上 的 另 一 个 FC 终端 ， 这 之 间 可 能 经 历 了 多 个 FC 交换 机 和 多 
条 链 路 。 而 如 果 数 据 流 在 另外 一 个 FC 终端 之 上 发 生 拥塞 ， 则 这 个 FC 终端 就 必须 通知 发 起 
端 降低 发 送 频率 ， 这 就 是 “ 端 到 端 ” 的 流量 控制 。 图 8.3 表示 了 这 两 种 机 制 的 不 同 。 


End-to-End (Source to Destination) Credit 


8.3 B2B 和 E2E 两 种 方式 的 流量 控制 示意 图 


3. MTU 
一 般 情况 下 ， 以 太 网 的 MTU 为 1500 字 节 ， 而 FC 链 路 层 的 MTU 可 以 到 2112 字 节 。 
这 样 ，FC 链 路 层 相 对 以 太 网 链 路 层 的 效率 又 提高 了 。 


8.1.3 网 络 层 


1. 拓扑 

同 以 太 网 类 似 ，FC 也 提供 了 两 种 网 络 拓扑 模式 : FC-AL 和 Fabric. 

© FC-AL 
FC-AL 拓扑 类 似 于 以 太 网 共享 总 线 拓扑 , 但 是 连接 方式 不 是 总 线 , 而 是 一 条 仲裁 环 
路 (Arbitral Loop). f&4* FC AL 设备 首尾 相 接 构成 了 一 个 环 路 。 一 个 环 路 能 接 入 的 
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最 多 节点 是 128 个 ， 实 际 上 是 用 了 一 个 字 节 的 寻 址 容量 ， 但 是 只 用 到 了 这 个 字 节 
经 过 8 10 b 编码 之 后 奇偶 平衡 (0 和 1 的 个 数 相等 ] 的 值 , 也 就 是 256 个 值 中 的 134 
个 值 来 寻 址 ， 这 些 被 筛选 出 来 的 地 址 中 又 被 广播 地 址 、 专 用 地 址 等 占用 了 ， 最 后 
RRIF 127 个 实际 可 用 的 节点 地 址 。 
图 8.4 为 4 个 FC-AL 设 备 接 入 一 个 仲裁 环 的 拓扑 图 。 仲 裁 环 是 一 个 由 所 有 设备 “ 串 
联 ” 形 成 的 闭合 环 路 。 如 果 某 个 设备 发 生 故 障 ， 这 个 串联 的 环 路 是 不 是 就 会 全 部 
RERE? FE FC-AL 集 线 设备 的 每 个 接口 上 都 有 一 套 “ 旁 路 电路 (Bypass Circuit)” , 
这 套 电路 一 旦 检测 到 本 地 设备 故障 或 电源 断 开 ， 就 会 自动 将 这 个 接口 短路 ， 从 而 
使 得 整个 环 路 将 这 个 故障 的 设备 Bypass 掉 ， 不 影响 其 他 设备 的 工作 。 

数据 帧 在 仲裁 环 内 是 一 跳 一 跳 被 传输 的 ， 并 且 任 何 时 刻 数 据 帧 只 能 按照 一 个 方向 向 下 

游 传输 。 图 8.5 为 AL 环 路 数据 帧 传输 机 制 的 示意 图 。 


—18]— 
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B^ FC 仲裁 环 结构 示意 图 B5 AL 环 路 数据 传输 机 制 示意 图 


在 图 8.5 所 示 的 仲裁 环 中 ， 若 a 节点 想 与 h 节点 通信 , 在 a 节点 赢得 仲裁 之 后 ,使 
向 h 节点 发 送 数据 帧 。 然 而 ， 由 于 这 个 环 的 数据 是 顺 时 针 方向 传递 的 ， 所 以 a 发 
出 的 数据 帧 ， 只 能 先 被 b 节点 收 到 ， 由 b 节点 接着 传递 到 c 节点 ， 依 次 传递 ， 最 
终 传递 到 h 节点 。 所 以 ， 虽 然 a 和 h 节点 之 间 只 有 一 跳 的 距离 ， 但 是 仍然 需要 绕 
一 圈 来 传递 数据 。 

@ Fabric 
另 一 种 Fabric 拓扑 和 以 太 网 交换 拓扑 类 似 。Fabric 的 意思 为 “网 状 构造 ”， 表 明 
这 种 拓扑 其 实 是 一 个 网 状 交换 矩阵。 
交换 矩阵 的 架构 相对 于 仲裁 环 路 来 说 ， 其 转发 效率 大 大 提高 了 ， 联 入 这 个 矩阵 的 
所 有 节点 之 间 都 可 以 同时 进行 点 对 点 通信 ， 加 上 包 交 换 方式 所 带 来 的 并 发 和 资源 
充分 利用 的 特性 , 使 得 交换 架构 获得 的 总 带宽 为 所 有 端口 带宽 之 和 。 而 AL 架构 下 ， 
接 入 环 路 的 节点 不 管 有 多 少 ， 其 带宽 总 为 恒定 ， 即 共享 的 环 路 带宽 。 
图 8.6 为 一 个 交换 矩阵 的 示意 图 。 每 个 FC 终端 设备 都 接 入 了 这 个 矩阵 的 端点 ， 
个 设备 发 给 另 一 个 设备 的 数据 帧 被 交换 矩阵 收 到 后 ， 矩 阵 便 会 “ 拨 动 ”这 张 矩 隐 
网 交叉 处 的 开关 ， 以 连通 电路 ， 传 输 数 据 。 可 以 将 这 个 矩阵 想象 成 一 个 大 的 电 
开关 矩阵 ， 和 矩阵 根据 通信 的 源 和 目的 决定 拨 动 哪些 开关 。 这 种 矩阵 被 做 成 芯片 
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成 到 专门 的 交换 机 上 ， 然 后 辅 以 实现 FC 逻辑 的 其 他 芯片 或 CU、ROM， 就 形成 了 
一 台 用 于 Fabric 交换 的 交换 机 。 

图 8.7 所 示 的 是 一 台 Fabric 交换 机 。FC 设备 通过 光纤 或 者 铀 线 等 各 种 标注 的 线 缆 
连接 到 这 人 台 交 换 机 上 , 便 可 以 实现 各 个 节点 基于 FC Fabric 拓扑 方式 的 点 对 点 通信 。 


E 8.6 Cross Bar 交换 矩阵 示意 图 Bl Brocade 公司 的 FC 交换 机 

FC 交换 拓扑 寻 址 容量 是 2 的 24 次 方 个 地 址 ， 比 以 太 网 理论 值 (2 的 48 次 方 ) 少 。 即 便 
是 这 样 ， 对 于 专用 的 存储 网 络 来 说 也 足够 了 ， 毕 竟 FC 设计 的 初衷 是 用 于 存储 网 络 的 一 种 高 
速 高 效 网 络 。 
2. Sg 


: 何 网 络 都 需要 寻 址 机 制 ，FC 当然 也 不 例外 了 。 
i 先 , 像 以 太 网 端口 MAC 地 址 一 样 , FC 网 络 中 的 每 个 设备 自身 都 有 一 个 WWNN(World 
Wide Node Name), 不管 这 个 设备 上 有 多 少 个 FC 端口 ， 设 备 始终 拥有 一 个 固定 的 WWNN 
来 代表 它 自身 。 然 后 ，FC 设备 的 每 个 端口 都 有 一 个 WWPN(World Wide Port Name， 世 界 
范围 的 名 字 ] 地 址 ， 也 就 是 说 这 个 地 址 在 世界 范围 内 是 惟一 的 ， 世 界 上 没有 两 个 接口 地 址 是 
相同 的 。 
FC Fabric 拓扑 在 寻 址 和 编 址 方面 与 以 太 网 又 有 所 不 同 。 有 具体 体现 在 以 太 网 交换 设备 上 
的 端口 不 需要 有 MAC 地 址 ， 而 FC 交换 机 上 的 端口 都 有 自己 的 WWPN 地 址 。 这 是 因为 FC 
交换 机 要 做 的 工作 比 以 太 网 交换 机 多 ， 许 多 智能 和 FC 的 逻辑 都 被 集成 在 FC 交换 机 上 ， 而 
以 太 网 的 逻辑 相对 就 简单 了 许多 ,因为 上 层 逻 辑 都 被 交 给 诸如 TCP/IP 这 样 的 上 层 协 议 实现 
了 。 然 而 FC 的 Fabric 网 中 ，FC 交换 机 担当 了 很 重要 的 角色 ， 它 需要 处 理 到 FC 协议 的 最 上 
层 。 每 个 FC 终端 设备 除了 和 最 终 通信 的 目标 有 交互 之 外 ， 还 需要 和 FC 交换 机 打 好 交道 。 
© WWNN 
每 个 FC 设备 都 被 赋予 一 个 WWNN， 这 个 WWNN 一 般 被 写 入 设备 的 ROM 中 不 能 
改变 ， 但 是 在 某 些 条 件 下 也 可 以 通过 运行 在 设备 上 的 程序 动态 的 改变 。 
e  WWPN 和 三 个 ID 
WWPN 地 址 的 长 度 是 64 位 ， 比 以 太 网 的 MAC 地 址 还 要 长 出 16 位 来 。 可见 FC 协 
议 很 有 信心 ， 认 为 FC 会 像 以 太 网 一 样 普 及 ， 全 球 会 产生 2 的 64 次 方 个 FC 接口 。 
然而 ， 如 果 8 个 字 节 长 度 的 地 址 用 于 高 效 路 由 的 话 , 无 疑 是 梦 麻 (IPv6 地 址 长 度 为 
128 位 ， 但 是 鉴于 Internet 的 庞大 ， 也 只 好 牺牲 速度 换 容量 了 )。 所 以 FC 协议 决 
定 在 WWPN 之 上 再 映射 一 层 寻 址 机 制 ， 就 是 像 MAC 和 IP 的 映射 一 样 ， 给 每 个 连 
接 到 FC 网 络 中 的 接口 分 配 一 个 Fabric ID, 用 这 个 ID 而 不 是 WWPN 来 嵌入 链 路 帧 
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中 做 路 由 。 这 个 ID 长 24 位 ， 高 8 位 被 定义 成 Domain 区 分 符 ， 中 8 位 被 定义 为 

Area 区 分 符 ， 低 8 位 定义 为 PORT 区 分 符 。 

这 样 , WWPN 被 映射 到 Fabric ID, 一 个 Fabric ID 所 有 24bit 又 被 分 成 Domain ID, 

Area ID、Port ID 这 三 个 亚 寻 址 单元 。 

+ Domain ID: 用 来 区 分 一 个 由 众多 交换 机 组 成 的 大 的 FC 网 络 中 每 个 FC 交换 机 
本 身 , 一 个 交换 机 上 所 有 接口 的 Fabric ID 都 具有 相同 的 高 8 位 , 即 Domain ID. 
Domain ID 同时 也 用 来 区 分 这 个 交换 机 本 身 ， 一 个 Fabric 中 的 所 有 交换 机 
有 不 同 的 Domain ID. 一 个 多 交换 机 组 成 的 Fabric H, Domain ID 是 自动 被 主 
交换 机 分 配给 各 个 交换 机 的 。 根 据 WWNN 号 和 一 系列 的 选举 帧 的 传送 ， 
WWNN 最 小 者 获胜 成 为 主 交换 机 ， 然 后 这 个 主 交换 机 向 所 有 其 他 交换 机 分 配 
Domain ID， 这 个 过 程 其 实 就 是 一 系列 的 特殊 帧 的 传送 、 解 析 和 判断 。 

* Area ID: 用 来 区 分 同一 台 交 换 机 上 的 不 同 端口 组 ， 比 如 1、2、3、4 端口 属 
于 Area1，5、6、7、8 端口 属于 Area2 等 。 其 实 Area ID 这 一 层 亚 寻 址 单元 
意义 不 是 很 大 。 我 们 知道 ， 每 个 FC 接口 都 会 对 应 一 块 用 来 管理 它 的 芯片 ， 然 

而 每 个 这 样 的 芯片 却 可 以 管理 多 个 FC 端口 。 所 以 如 果 一 片 芯片 可 以 管理 1、 

2、3、4 号 FC 端口 ， 那 么 这 个 芯片 就 可 以 属于 一 个 Area， 这 也 是 Area 的 物 

里 解释 。 同 样 ， 在 主机 端的 FC 适 配 卡 上 ， 一 般 也 都 是 用 一 块 芯片 来 管理 多 个 

FC 接口 的 。 

+ PortID: 用 来 区 分 一 个 同 Area 中 的 不 同 Port。 
经 过 这 样 的 3 段 式 寻 址 体系 ， 可 以 区 分 一 个 大 Fabric 中 的 每 个 交换 机 、 交 换 机 中 的 每 

个 端口 组 及 每 个 端口 组 中 的 端口 。 

3. 寻 址 过 程 

1) 地 址 映射 

既然 定义 了 两 套 编 址 体系 ， 那 么 一 定 要 有 了 映射 机 制 ， 就 像 ARP 协议 一 样 。FC 协议 中 地 

址 映射 步骤 如 下 。 

1】 当 一 个 接口 连接 到 FC 网 络 中 时 , 如 果 是 Fabric 架构 , 那么 这 个 接口 会 发 起 一 个 登 
录 注 册 到 Fabric 网 络 的 动作 ， 也 就 是 向 目的 Fabric ID 地 址 FFFFFE 发 送 一 个 登录 
Wi, MK FLOGIN. 

21 交换 机 收 到 地 址 为 FFFFFE 的 帧 之 后 ,会 动态 的 给 这 个 接口 分 配 一 个 24 位 的 Fabric 
ID， 并 记录 这 个 接口 对 应 的 WWPN， 做 好 映射 。 

3】 此 后 这 个 接口 发 出 的 帧 中 不 会 携带 其 WWPN， 而 是 携带 其 被 分 配 的 ID 作为 源 
地 址 。 


t 


以 太 网 是 既 携 带 MAC 地 址 ， 又 携带 P 地 址 ， 在 效率 上 打 了 折扣 。 


4] 如果 接口 是 连接 到 FC 仲裁 环 网 络 中 , 那么 整个 环 路 上 的 节点 会 选 出 一 个 临时 节点 
(根据 WWPN 号 的 数值 ， 最 小 的 优先 级 最 高 )， 然 后 由 这 个 节点 发 送 一 系列 的 初始 
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大 话 存储 


B 
^s 


过 程 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


化 帧 ， 给 每 个 节点 分 配 环 路 ID. 


E 


8.8 所 示 的 是 FC 设备 登录 到 Fabric 过 程 示意 图 。 


* 如 果 设 备 为 Fabric 模 式 ， 将 会 出 设备 首先 向 注册 服务 器 (FFFFFE) 发 送 注册 申请 
(FLOGI， 由 注册 服务 器 应 答 (如 通则 发 送 端口 地 址 ) 

o 获得 许可 和 Fabric 地 址 后 向 名 称 服务 器 发 送 端口 注册 请 求 ， 由 名 称 服务 器 决定 ， 获 
得 许可 的 同时 将 同时 收 到 可 访问 设备 列表 (主动 设备 ) 


FLoG — 


— sso —| 


D 注册 服务 器 
L- FF FFFE) 


- 名 称 服务 器 
(XFF FFFC) 


-= 应 答 者 


Fabric 


图 3.8_FC 设备 登录 Fabric 网 络 的 过 程 


2) SHUT 


编 址 之 后 就 要 寻 址 ， 寻 址 就 牵扯 到 路 由 的 概念 。 


一 个 大 的 FC 网 络 中 ， 一 般 有 多 


ex 
HA 


换 机 相互 连接 ， 它 们 可 以 


链 式 级 


JFC 网 络 中 的 FCID 都 是 动态 的 ， 每 个 设备 每 次 登录 到 Fabric 所 获得 的 ID 可 能 
| 不 一 样 。 同 样 ，FC 交换 机 维护 的 Fabric ID 与 WWPN 的 映射 也 是 动态 的 。 


联 ， 也 可 以 两 两 连 


甚至 任意 连接 ， 就 像 IP 网 络 中 的 路 由 器 连接 一 样 ， 但 是 FC 网 络 不 需要 太 多 的 人 工 介 


如 果 将 几 台 交 


举 出 一 个 WWPN 号 


交换 机 分 配 Domain ID， 以 确保 不 会 冲突 。 


网 络 


信息 
来 的 
个 专 
果 给 


为 一 
简便 


JE 


对 于 好 


及 IP 地 
错误 。FC 采用 自动 分 配 
用 、 高 效 、 高 速 的 网 络 ， 
Internet 也 自动 分 配 地 志 
既然 要 与 目的 节点 通信 ， 


个 专用 网 络 ， 一 个 小 范 


围 、 


， 就 像 Windows 中 浏览 
每 个 节点 在 登录 到 FC 网 


的 设备 会 向 一 个 特定 的 E 


来 
动 之 
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后 ， 如 果 设 置 了 WINS 


每 台 机 器 都 这 么 做 ， 所 以 网 络 中 


FE 过 程 ， 这 些 交 换 机 上 会 运行 相应 
SPF( 最 短路 径 优先 ] 协 议 ， 是 一 种 很 健壮 的 路 由 协议 。 比 如 用 于 IP Idi] 


引 等 ， 这 样 出 错 率 会 很 高 。FC 网 络 中 自动 分 配 和 管理 
也 址 的 策略 ， 一 个 最 根本 的 原 
而 不 是 给 Internet 用 的 ， 所 以 自动 
上 ， 那 么 后 果 不 堪 设 想 。 

怎么 知道 要 通信 的 目标 地 址 是 多 少 呢 ? RA 


的 路 由 协议 。 最 


节点 配置 IP 地 址 


换 机 连接 成 一 个 FC 网 络 ， 则 它们 会 自动 的 协商 自己 的 
小 的 交换 机 来 充当 主 交换 机 ， 由 主 交 换 机 来 向 下 给 每 个 


“ 泛 使 用 


li 


， 给 每 个 路 由 器 配置 路 由 


各 种 地 


Domain ID， 这 个 


的 路 由 协议 就 是 
的 OSPF 协议 ，FC 


岂 应 用 了 这 种 协议 。 这 样 就 可 以 寻 址 各 个 节点 ， 进 行 各 个 节点 无 障碍 的 通信 。 
IP 网 络 需 要 很 强 的 人 为 介入 性 ， 比 如 给 每 个 


EF， 避免 了 人 算 带 


因 是 F 


C 从 
分 配 地 


始 就 被 设计 为 一 
Lamm. da 


知道 ，FC 被 设计 


高 效 、 高 速 、 简 易 配 置 的 网 络 。 所 以 使 


的 ID 发 一 系列 的 注册 帧 ， 来 注 大 
有 物理 设备 与 其 对 应 ， 只 是 运行 在 交换 机 上 的 一 套 名称 服 务 程 
说 ， 会 认为 自己 是 在 和 一 个 真实 的 FC 设备 通信 


网 上 邻居 一 样 。 
络 并 且 被 分 配 ID 之 后 ， 会 进行 一 个 名 称 注 


日 它 的 时 候 也 非常 


HAC. XA ID 实际 J 
序 而 已 ， 而 对 于 终端 FC 设备 
。 对 于 Windows 系统 来 说 ， 每 台 机 器 启 
民 务 器 ， 会 向 WINS 服务 器 来 注册 自己 的 
ph 的 WINS 服务 器 就 会 掌握 网 络 中 


机 名 和 IP 地 址 。 
内 所 有 机 器 的 主机 


4 过 程 ， 也 就 是 接 


上 并 没 


和 


IP。 同 样 ，FC 交换 机 上 运行 的 这 个 名 称 服务 程序 ， 就 相当 于 WINS 服务 器 。 但 是 其 


惟一 的 、 


个 地 址 是 大 家 都 公认 不 会 去 改变 的 ， 每 个 节点 都 知道 这 个 地 
其 实 不 是 物理 的 服务 器 ， 只 是 运行 在 FC 交换 机 上 的 程序 ， 也 可 以 认为 FC 交换 机 本 身 就 是 
这 人 台 服 务 器 。 
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地 址 是 


特定 的 ， 不 像 WINS 服务 器 可 以 被 配置 为 任何 IP 地 址 。 也 就 是 说 在 FC 协议 中 ,这 


上 ， 记 以 都 能 找到 名 称 服 务 器 。 


节点 注册 到 名 称 服 务 之 后 ， 服 务 便 会 将 网 络 上 存在 的 其 他 节点 信息 告诉 这 个 接口 上 所 


连接 的 设备 ， 就 像 浏 览 网 上 邻 


和 资源 。 
e. 


ZONE 

为 了 安全 性 考虑 ， 可 以 进行 人 为 配置 ， 让 名 称 服务 器 只 告诉 某 个 设备 
比如 网 络 上 存在 a、b、c、d 四 个 节点 ， 可 以 让 名 称 服 务 只 向 a 通告 
点 的 存在 ， 而 隐藏 d 节点 ， 这 样 a 看 不 到 d。 但 是 这 样 做 有 时 候 会 显 


信 。 就 像 有 时 网 上 邻居 里 看 不 到 一 台 机 器 ， 但 是 它 明 明 在 线 ， 那 么 如 


叫做 硬 ZONE。 


WT o BI 8.9 是 一 个 Fabric ZONE 的 示意 图 。 


Storage Area Network 
(SAN) 


B 8.9 一 个 具有 三 个 ZONE 的 Fabric 


与 目标 通信 


从 名 称 服务 器 得 知 网 络 上 的 节点 ID 之 后 ， 如 果 想 发 起 和 一 个 节点 的 通信 


b、 


果 


g 台 机 器 的 地 址 ， 照 样 可 以 不 通过 网 上 邻居 ， 直 接 和 它 通 信 。 如 果 两 个 
理 隔 开 了 ， 那 么 就 真 的 无 能 为 力 了 。 前 者 实现 隔离 的 方法 叫做 软 ZONE， 后 者 做 法 


所 谓 ZONE， 即 分 区 的 意思 ， 同 一 个 分 区 内 的 节点 之 间 可 以 相互 通信 ， 不 
间 的 节点 无 法 通信 。 软 ZONE 假设 大 家 都 是 守法 公民 ， 名 称 服务 器 没有 i 
就 不 去 连接 。 而 硬 ZONE 不 管 是 否 守 法 都 会 从 底层 硬件 上 强制 隔离 ， 即 使 某 个 节 
点 知道 了 另外 分 区 中 某 个 节点 的 ID， 也 无 法 和 对 方 建立 通信 ， 因 为 底层 已 经 被 阻 


居 一 样 ， 所 以 这 个 接口 上 的 设备 便 知道 了 网 络 上 的 所 有 节点 


竺 定 的 节点 。 


c 两 个 节 


得 很 不 保险 ， 
因为 a 虽然 没有 通过 名 称 服务 得 到 d 的 ID, 但 是 如 果 将 节点 d 的 ID. 直接 告诉 节点 
a 的 话 ， 那 么 它 就 可 以 和 d 主动 发 起 通信 。 而 这 一 切 ， 交 换 机 不 做 干涉 ， 
机 傻 作 的 认为 只 要 名 称 服务 器 没有 向 a 通告 d 的 ID，a 就 不 会 和 d 发 
发 生 这 种 结果 的 原因 是 在 物理 上 节点 a 和 节点 d 并 没有 被 分 开 ,a 和 d 总 


因为 交换 


有 办 法 通 
比 时 知道 
节点 被 物 


司 分 区 之 
首 告 的 ID 


， 那 么 这 


个 设备 需要 直接 向 目的 端口 发 起 一 个 N_PORT Login 过 程 交换 一 系列 的 参数 , 然后 
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大 话 存储 


构 的 网 络 没有 名 称 注 
点 发 起 通信 。 


8.1. 


X 


显示 了 这 种 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


进行 Process Login 过 程 (类 似 于 TCP 
序 间 的 通信 。 这 些 Login 过 程 其 实 就 是 上 三 层 
已 经 没什么 关联 了 。 这 些 Login 的 帧 也 必须 经 过 FC 下 4 
就 像 TCP 握手 过 程 一 样 。 

名 称 服务 器 只 是 FC 提供 的 所 有 服务 


向 特定 端 


发 送 握手 包 一 样 )， 即 进行 应 


r1 


这 些 地 址 都 是 事先 定 死 的 。 


Fabric 网 络 中 还 有 一 种 FC Control Service， 如 果 节 点 向 这 个 服务 注册 ， 


p 的 一 个 ， 


其 他 还 有 时 


的 内 容 ， 属 于 会 话 
层 来 封装 并 传输 到 


屋 ， 和 网 络 传输 


目的 地 ， 


间 服 务 ， 别 名 服务 等 ， 


也 就 是 向 


地 址 FFFFFD 发 送 一 个 State Change Registration (SCR) 帧 ， 那 么 一 旦 整个 Fabric 


有 什么 变动 ， 


比如 一 个 节点 离线 了 、 或 者 一 个 节点 上 线 了 、 或 


者 一 个 ZONE 被 创 


建 了 等 , Fabric 便 会 将 这 些 事件 封装 到 Registered State Change Notification (RSCN) 
帧 里 发 送 给 注册 了 这 项 服务 的 所 有 节点 。 这 个 动作 就 像 预订 新 闻 一 样 ， 通 常 一 旦 


有 这 些 事件 发 生 之 后 ， 节 点 需要 重新 进行 名 称 注册 ， 


器 得 到 网 络 上 的 最 新 资源 情况 ， 也 就 是 刷新 一 下 。 


知 的 服务 都 是 运行 在 交换 机 内 部 的 ， 而 不 是 物理 


以 便 从 名 称 服务 


-的 一 台 服 务 器 。 当 


然 如 果 愿 意 的 话 ， 也 完全 可 以 用 物理 服务 器 来 实现 ， 不 过 这 样 做 的 话 ， 在 增加 了 
扩展 性 的 同时 也 增加 了 Fabric 的 操作 难度 。 


以 上 描述 的 都 是 


FC 的 链 路 层 和 网 络 层 被 合并 成 一 层 ， 统 称 FC2。 


4 传输 层 


FC 的 传输 层 同 样 也 与 TCP 类 似 ， 也 对 上 层 的 数据 流 进 
程序 ，TCP 是 利用 端口 号 来 区 分 ，FC 则 是 利用 Exchange ID 来 
序 ) 发 过 来 的 数据 包 ， 被 FC 传输 层 分 割 成 Information Unit， 也 就 相 
Segment。 然 后 FC 传输 层 将 这 些 Unit 提交 给 FC 的 下 层 过 
作 一 个 Sequence， 并 给 予 一 个 Sequence ID， 然 后 将 这 个 Sequence 
的 帧 ， 给 每 个 帧 赋予 一 个 Sequence Count， 这 样 便 可 
项 之 后 ， 会 组 合成 Sequence， 然 后 根据 Sequence ID 
层次 结构 。 图 8.11 为 FC 网 络 上 的 数据 帧 


传输 层 还 有 一 个 重要 角 


色 ， 就 是 适 配 上 层 协议 ， 


ATM 一 样 。 
FC 也 是 通过 发 送 ACK 帧 来 向 对 方 发 送 确认 信息 的 , 这 个 和 TCP 实现 思想 一 样 。 只 不 过 
一 个 ACK 帧 是 24 字 节 加 上 CRC、SOF、EOF, 一 共 36 字 节 , 而 TCP 的 ACK 帧 为 14+20+20=54 
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区 分 。 


传输 示意 图 。 


FÍF Segment， 而 且 还 要 


FE 行 传输 。 ] 


[以 保证 帧 的 排列 


基于 FC 交换 架构 的 网 络 ， 即 Fabric(FC 交换 网 络 ]。 对 于 FC 仲裁 环 架 
册 过 程 ， 环 上 的 每 个 节点 都 对 环 上 其 他 节点 了 如 指 掌 ， 可 以 对 任何 节 


人 有些 机 制 可 以 把 环 路 和 交换 结构 融合 起 来 ， 比 如 形成 Private loop. Public loop 
等 ， 这 方面 会 在 下 文中 介绍 。 


区 分 上 层 
每 个 Exchange( 上 层 程 
HPF TCP 分 割 成 的 
下 层 将 每 个 segment 当 
再 次 分 割 成 FC 所 适应 
顺序 。 接 收 方 接受 到 


来 顺序 提交 给 


- 层 协议 处 理 。 图 8.10 


比如 IP 可 以 通过 FC 进行 传输 ，SCSI 
指令 可 以 通过 FC 来 传输 等 ,FC 会 提供 适 配 上 层 协议 的 接口 ,就 是 IP over FC 及 CSI over FC. 
E, FC 只 是 给 IP 和 SCSI 提供 了 一 种 通路 , 一 种 传输 手段 ,就 像 IP over Ethernet 和 IP over 
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字 节 。 两 者 差别 已 经 很 明显 了 ， 两 个 帧 看 不 出 来 ， 但 是 发 送 多 了 ， 差 别 就 看 出 来 了 。 要 看 
累积 效应 。 当 然 这 么 算是 很 粗略 的 ， 还 需要 包括 进 链 路 控制 ， 帧 间 队 开销 等 。 


Login Session. 


EXCHANGE 


ES 
[em 国 mr 
NodeA 
EJ 


= 
本 


EXCHANGE 


ue 


ED Node A 
”一 hp 一 一 

ci ~ez [| A gs 全 hd 
图 s.10 FC 协议 的 层次 结构 Bes: Fabric 网 络 上 的 帧 


在 传输 层 上 ，FC 定义 了 几 种 服务 类 型 ， 也 就 是 类 似 TCP/IP 协议 中 规定 的 TCP、UDP。 
FC 协议 中 的 Class 1 服务 类 型 是 一 种 面向 连接 的 服务 , 即 类 似 电路 交换 的 模式 , 为 通信 的 双 
方 保留 一 条 虚 电 路 ， 以 进行 可 靠 的 传输 。Class 2 类 型 提供 的 是 一 种 带 端 到 端 确认 的 保障 传 
输 的 服务 ， 也 就 是 类 似 TCP。Class 3 类 型 不 提供 确认 ， 类 似 UDP。Class 4 类 型 是 一 个 在 一 
条 连接 上 保留 一 定 的 带宽 资源 给 上 层 应 用 ， 而 不 是 像 Class 1 类 型 那样 保留 整个 连接 ， 类 似 
RSVP 服务 。 使 用 什么 服务 类 型 ， 会 在 端口 之 间 进 行 PLogin 的 时 候 协 商 确定 。 

FC 传输 层 被 定义 为 FC4。 


815 上 三 层 
FC 协议 的 上 三 层 表现 为 各 种 Login 过 程 、 包 括 名 称 服务 等 在 内 的 各 种 服务 等 ， 这 些 都 


是 与 网 络 传输 无 关 的 ， 但 是 的 确 属于 FC 协议 体系 之 内 的 ， 所 以 这 些 内 容 都 属于 FC 协议 的 
上 三 层 。 


816 小 结 


综 上 所 述 ，FC 是 一 个 高 速 高 效 ， 配 置 简 单 ， 不 需要 太 多 人 为 介入 的 网 络 。 基 于 这 个 原 
则 ， 为 了 进一步 提高 FC 网 络 的 速度 和 效率 ， 在 FC 终端 设备 上 ，FC 协议 的 大 部 分 逻辑 被 直 
接 做 到 一 块 独立 的 硬件 卡片 当中 ， 而 不 是 运行 在 操作 系统 中 。 如 果 将 部 分 协议 逻辑 置 于 主 
机 上 运行 ， 会 占用 主机 CPU 内 存 资源 。 

TCP/IP 就 是 一 种 运行 于 主机 操作 系统 上 的 网 络 协议 ， 其 IP 和 TCP 或 者 UDP 模块 是 运 
行 在 操作 系统 上 的 ， 只 有 以 太 网 逻辑 是 运行 在 以 太 网 卡 芯片 中 的 ，CPU 从 以 太 网 卡 接受 到 
的 数据 是 携带 有 IP 头 部 及 TCP/UDP 头 部 的 , 需要 运行 在 CPU 中 的 TCP/IP 协议 代码 来 进 一 
步 处 理 这 些 头 部 ， 才 能 生成 最 终 的 应 用 程序 需要 的 数据 。 

而 FC 协议 的 物理 层 到 传输 层 的 逻辑 ， 大 部 分 运行 在 FC 适 配 卡 的 芯片 中 ， 只 有 小 部 分 
关于 上 层 API 的 逻辑 运行 于 操作 系统 FC 卡 驱 动 程序 中 ， 这 样 就 使 FC 协议 的 速度 和 效率 都 
较 TCP/IP 协议 高 。 这 么 做 ， 成 本 无 疑 会 增加 ， 但 是 这 网 络 本 来 就 不 是 为 大 众 设 计 的 ， 增 加 
成 本 来 提高 速度 和 效率 也 是 值得 的 。 
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8.2 FC 协议 中 的 七 种 端口 类 型 


在 FC 网 络 中 ， 存 在 七 种 类 型 的 接口 ， 其 中 N、L 和 NL 端口 被 用 于 终端 节点 ，F、FL、 
E 和 G 端口 在 交换 机 中 实现 。 


8.2.1 N 端 口 和 F 端口 


N 端口 和 下 端口 专用 于 Fabric 交换 架构 中 。 连 入 FC 交换 机 的 终端 节点 的 端口 为 N 端 
， 对 应 的 交换 机 上 的 端口 为 F 端口 。N 代表 Node, F 代表 Fabrics H N 端口 模式 连 入 FF 
端口 之 后 ， 网 络 中 的 N 节点 之 间 就 可 以 互相 进行 点 对 点 通信 了 。 图 8.12 所 示 的 是 N 端口 和 


F 端口 的 示意 图 。 
| n 
E s 终端 FC 
| F| FC 交换 机 [F] N| 设 各 


图 8.12 N 端口 和 F 端口 


8.2.2 上 端口 


L 端口 指 仲裁 环 上 各 个 节点 的 端口 类 型 [LOOP]。 环 路 上 的 所 有 设备 可 以 通过 一 个 FCAL 
的 集线器 相连 ， 以 使 得 布线 方便 ， 故 障 排除 容易 。 当 然 ， 也 可 以 使 用 最 原始 的 方法 ， 就 是 


首尾 相 接 。 图 8.13 所 示 的 是 利用 集线器 连接 的 拓扑 。 
FOSE 
£k 
E Fole 
m Er 
dd 2 N N 
* Ju 
设备 FCHDR 
T 设备 
rI 
设备 


图 8.13_ 基 于 FCAL 集线器 的 FCAL 环 路 连接 
1. 私有 环 


私有 环 , 就 是 说 这 个 FC 仲裁 环 是 封闭 的 , 只 能 在 这 个 环 中 所 包含 的 节点 之 间 相互 通信 ， 
而 不 能 和 环 外 的 任何 节点 通信 。 

2. 开放 环 

这 个 环 是 开放 的 ， 环 内 节点 不 但 可 以 和 环 内 的 节点 通信 ， 而 且 也 可 以 和 环 外 的 节点 通 
信 。 也 就 是 说 可 以 把 这 个 环 作为 一 个 单元 连接 到 FC 交换 机 上 ， 从 而 使 得 环 内 的 节点 可 以 和 
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位 于 FC 交换 机 上 的 其 他 N 节点 通信 。 如 果 将 多 个 开放 环 连 接 到 交换 机 , 那么 这 几 个 开放 环 
之 间 也 可 以 相互 通信 。 
要 实现 开放 环 架构 ， 需 要 特殊 的 端口 ， 即 下 面 描述 的 NL 和 FL 端口 。 
8.2.3 NL 端口 和 FL 端口 
NL 端口 是 开放 环 中 的 一 类 端口 , CRA N 端口 和 上 端口 的 双重 能 力 。 换 而 言 之 ， NL 
端口 支持 交换 式 光纤 网 登录 和 环 仲裁 。 而 FL 端口 是 FC 交换 机 上 用 于 连接 开放 仲裁 环 结构 
的 中 介 端 口 。 
放 环 内 可 以 同时 存在 NL 节点 和 节点， 而 只 有 NL 节点 才能 和 环 外 的 、 位 于 FC 交 
换 结构 中 的 多 个 N 节点 或 者 其 他 类 型 节点 通信 。NL 节点 也 可 以 同时 和 节点 通信 。 图 8.14 
为 NL 和 FL 端口 示意 图 。 
Ea N— FC 交换 机 F a] 
设备 FCSN 
mx RN : 
EN 私有 
私有 设备 


L 和 FL 端口 示意 


图 814 N 
开放 环 的 融合 机 制 
FC-SW 设备 的 工作 方式 是 它 会 登录 到 网 


设备 要 传输 数据 时 会 先 到 


络 (FLOGI)， 并 在 Name Server 中 注册 (PLOGI)。 


Name Server 查询 Target 的 设备 ， 然 后 到 目标 设备 进行 (PRLI)， 


最 后 传输 数据 。 

FC-AL 的 设备 工作 方式 与 此 完全 不 同 ， 在 环 路 的 初始 化 LLIP) 过 程 中 ， 生 成 一 个 环 路 上 
所 有 设备 地 址 的 列表 ， 被 称 作 AL _PA， 并 存储 在 Loop 中 的 每 个 设备 上 。 当 设备 要 与 目标 主 
机 通信 时 ， 会 到 AL_PA 中 查询 目标 主机 ， 然 后 根据 地 址 进行 通信 。 

要 让 一 个 私有 环 中 的 设备 和 Fabric 中 的 设备 达到 相互 通信 ， 必 须 采 用 协议 转换 措施 ， 
[Jy FC AL 和 FC Fabric 是 两 套 不 同 逻 辑 体 系 。 


,在 本 书 第 13 
如 果 阅 读 过 天 
L5: 完全 就 是 一 种 Tunnel 模式 ， 他 们 

也 就 是 躁 着 AL Æ Fabric. 


发 向 FL 端口 ， 而 整个 环 中 其 他 节 


章 论述 了 关于 “协议 之 间 相 互 作 用 ” 即 “协议 杂交 ”方面 的 内 容 。 
一 章 ， 再 回头 来 研究 ， 我 们 可 以 发 现 ，NL 端口 和 FL 端口 之 间 ， 


利用 FC AL 的 逻辑 ， 承 载 FC Fabric 的 逻辑 ， 


比如 Flogin. PLogin 等 这 些 帧 ， 都 通过 AL 链 路 来 


点 ， 对 这 个 动作 丝 豪 不 知道 ， 也 不 必 知 道 。 
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如 果 采 用 MAP 方式 达到 两 种 协议 形式 的 最 大 程度 的 融合 ， 
的 这 种 模式 ， 就 是 采用 了 MAP 的 思想 。 

这 种 MAP 的 模式 使 环 内 的 任何 天 节 点 可 以 和 环 外 的 任何 N 节点 之 间 就 像 对 方 和 自己 是 
同类 一 样 通信 。 也 就 是 说 环 内 的 工 节点 看 待 环 外 的 N 节点 就 像 是 一 个 不 折 不 扣 的 工 节 点。 


机 上 


反 过 来 ， 环 外 的 N 节点 看 待 环 内 的 工 节点 就 像 是 一 个 N 节点 一 样 。 这 个 功能 是 通过 在 交换 
的 FL 端口 实现 的 ， 这 个 端口 承接 私有 环 和 Fabric。 在 私有 环 一 侧 ， 它 表现 为 L 端口 的 


所 有 逻辑 行为 ， 而 对 Fabric 一 侧 ， 它 则 表现 为 N 端口 的 行为 ， 


议 转 
仿真 
地 址 
址 ， 


点 知 
些 新 


而 来 的 。 


次 射 ， 将 环 内 的 节点 统统 取 一 个 环 外 的 名 字 ， 也 就 是 将 上 


道 存在 这 么 一 些 新 加 入 Fabric 的 节点 (其 实 是 环 内 的 二 区 
节点 的 存在 ， 就 要 将 这 些 新 的 节点 注册 到 名 称 服务 器 上 。 


bj 
换 。 这 个 接口 可 以 把 环 外 的 N 节点 “ 带 ” 到 私有 环 内 ， 同 时 把 环 内 的 节点 “ 带 ” 到 环 
Sho WARI L 节点 根本 不 会 知道 它们 所 看 到 的 其 实 是 环 外 的 N 节点 通过 这 个 特殊 的 上 i 


当然 也 要 涉及 到 寻 址 的 MAP， 因 为 Fabric 和 AL 的 编 址 方式 不 同 ， 所 以 需要 维护 一 个 


也 是 完全 可 以 的 。 下 面 描述 


也 就 相当 于 一 个 N-L 端 


端口 地 址 对 应 一 个 N 端口 地 


而 这 些 地 址 都 是 虚拟 的 ， 不 能 和 环 外 已 经 存在 的 N 端口 地 址 重合 ， 这 样 才能 让 环 外 节 


点 ]。 而 要 让 环 外 节点 知道 这 
因为 Fabric 架构 中 ， 每 个 节 


点 都 是 通过 查询 名 称 服务 器 来 获取 当前 Fabric 中 所 存在 的 节点 的 。 同 样 ， 要 让 环 内 的 节点 
环 外 的 N 节点 的 存在 ， 也 必须 给 每 个 N 节点 取 一 个 AL 地 址 ， 让 这 些 地 址 参与 环 的 初 
， 从 而 将 这 些 地 址 加 入 到 AL 地 址 列表 中 。 这 样 ， 环 内 的 节点 就 能 根据 这 个 列表 知道 环 


知道 
始 化 
内 都 


进行 


有 哪些 节点 了 。 
让 各 自 都 能 看 到 对 方 ， 知 道 对 方 的 存在 ， 这 只 是 完成 了 M 
更 加 复杂 的 MAP, 即 协议 交互 逻辑 的 MAP. 假如 一 个 环 内 


AP 的 第 一 步 。 接 下 来 ， 还 要 
节点 要 和 一 个 环 外 节点 通信 ， 


这 个 环 内 节点 会 认为 它 所 要 通信 的 就 是 一 个 和 它 同类 的 L 节点 ， 所 以 它 赢得 环 仲裁 之 后 ， 


n 
^H 


环 内 


向 这 
HI A 


来 的 


接 向 这 个 虚拟 AL 地 址 发 起 通信 。 


这 个 虚拟 AL 地 址 对 应 的 物理 接口 实际 上 是 交换 机 上 的 仿真 端口 , 仿真 端口 收 到 由 
节点 发 起 的 通信 请 求 之 后 ， 便 开始 MAP 动作 。 首 先 仿真 L 端口 根据 这 个 请 求 的 目的 地 
址 ， 也 就 是 那个 虚拟 地 址 ， 查 找 地 址 映射 表 ， 找 到 对 应 的 N 端口 的 Fabric 地 址 。 然 后 主动 
个 N 端口 发 起 PLogin 过 程 , 也 就 是 将 AL 的 交互 逻辑 最 终 映 射 到 了 Fabric 的 交互 逻辑 。 
L 向 虚拟 地 址 发 起 的 通信 请 求 ， 被 仿真 L 端口 MAP 成 了 向 真正 的 N 端口 发 起 PLogin 
请 求 ， 这 就 是 协议 交互 逻辑 的 MAP。 请 求 成 功 之 后 ， 仿 真 L 端口 便 一 边 收集 环 内 上 节点 发 
数据 ,一 边 将 数据 按照 Fabric 的 逻辑 转发 给 真正 的 N 端口 。 反 之 亦 然 ，N 端口 的 逻辑 ， 


仿真 


它们 


环 外 
F 端 
突破 
登录 
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L 端口 同样 也 会 MAP 成 AL 环 的 逻辑 。 这样, 不 管 是 环 外 的 N 端口 还 是 环 内 的 工 端口 ， 


都 认为 它们 正在 和 自己 的 同类 通信 。 
图 8.15 所 示 为 开放 环 与 Fabric 融合 的 示意 图 。 


环 的 限制 ， 即 先 要 赢得 环 仲裁 ， 再 按照 交换 架构 的 逻辑 进 
， 然 后 进程 登录 。 而 这 一 切 ， 环 内 其 他 节点 不 会 感知 到 。 


同样 是 将 环 接 入 Fabric, 开放 环 的 扩展 性 就 比 私有 环 接 入 强 。 因 为 一 个 NL 端口 可 以 条 
的 多 个 N 端口 通信 。 也 就 是 说 ，NL 端口 和 FL 端口 可 以 看 成 是 隐藏 在 环 中 的 N 端口 入 
。 它 们 如 果 要 通信 ， 不 能 像 直 连 的 N A F 端口 那样 直接 进行 Fabric 登录 ， 而 必须 先 


行 Fabric 登录 ， 接 着 N 端 
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FCR [1 rz m FC 竹编 
设备 F C 交 换 机 [F N "e 
FC FOSA 
设备 设备 
Ea y co Ne 
发 起 通信 OO FC AL 设 各 一 yi 
N 4 
E 5 
pui. 
| rci t 
* FC 
设备 
FCEE 
f 设备 


Hss 开放 环 融 合 机 制 示意 图 
具有 NL 端口 的 设备 既 能 和 环 内 的 上 端口 设备 通信 ， 又 能 和 环 外 的 N 端口 设备 通信 ， 
同时 具有 N LL 端口 的 逻辑 ， 这 一 切 都 不 需要 仿真 MAP， 只 需要 一 个 Tunnel 过 程 即 可 。 
而 环 内 的 上 节点 如 果 想 与 环 外 的 N 端口 通信 ， 由 于 工 节 点 自身 没有 N 端口 的 逻辑 ， 必 须 经 
过 FL 端口 的 MAP 过 程 。 所 以 ， 称 具有 NL 端口 的 设备 为 Public 设备 ， 即 开放 设备 。 而 称 
具有 上 端口 的 设备 为 Private 设备 ， 即 不 开放 的 私有 设备 。 


824 E 端口 


E 端口 是 专门 用 于 连接 交换 机 和 交换 机 的 端口 。 因 为 交换 机 之 间 级 联 ， 需 要 在 级 联 线路 
上 承载 一 些 控制 信息 ， 比 如 选举 协议 、 路 由 协议 等 。 
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G 端口 比较 特殊 ， 它 是 “万 能 ”端口 ， 它 可 以 转变 为 上 面 讲 到 过 的 任何 一 种 端口 类 型 ， 
按照 所 连接 对 方 的 端口 类 型 进行 自动 协商 变 成 任何 一 种 端口 。 

终端 节点 端口 编 址 规则 

各 种 终端 节点 端口 N、NL、D 的 FC ID 地 址 都 是 24 位 (3 字 节 )] 长 。 但 是 N 端口 只 使 用 
3 字 节 中 的 高 2 字 节 ， 即 高 16 位 ; 二 端口 上 只 使 用 3 字 节 中 的 低 工 字 节 ， 即 低 8 位 ; NL 端口 
使 用 全 部 3 字 节 。 没 有 被 使 用 的 字 节 值 为 0。 
产生 这 种 编 址 机 制 不 同 的 原因 , 是 3 种 端口 的 作用 方式 不 同 。L 端口 只 在 私有 环 内 通信 ， 
而 一 个 环 的 节点 容量 是 128 个 ， 所 以 只 用 8 位 就 可 以 表示 了 。N 端口 由 于 处 于 Fabric 交换 
架构 中 ， 节 点 容量 很 大 ， 所 以 用 了 16 位 表示 ， 最 大 到 65536 个 节点 。 而 NL 端口 ， 因 为 既 
处 于 环 中 ， 又 要 和 Fabric 交换 架构 中 的 节点 通信 ， 所 以 它 既 使 用 N 端口 的 编 址 ， 又 使 用 上 
端口 的 编 址 ， 所 以 用 了 全 部 3 个 字 节 。 图 8.16 为 端口 编 址 示意 图 。 
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图 8.16_ 三 种 FC 节点 类 型 的 编 址 异同 
任何 设备 都 可 以 接 入 FC 网 络 从 而 与 网 络 上 的 其 他 FC 设备 通信 ， 网 络 中 的 设备 可 以 是 
服务 器 、PC、 磁 盘 阵 列 、 磁 带 库 等 。 然 而 ， 就 像 以 太 网 要 求 设备 上 必须 有 以 太 网 接口 才能 
连 入 以 太 网 络 一 样 ， 设 备 上 必须 有 FC 接口 才 可 以 连 入 FC 网 络 。 


8.3 ”FC 适配器 


想 进入 FC 网 络 ， 没 有 眼睛 和 耳 杂 怎么 行 呢 。FC 网 络 的 眼睛 就 是 FC 适配器 ， 或 者 叫做 
FC 主机 总 线 适 配器 ， 即 FC HBA(Host Bus Adapter)。 值 得 说 明 的 是 ，HBA 是 一 个 通用 词 ， 
它 不 仅仅 指 代 FC 适配器 ， 它 可 以 指 代 任 何 一 种 设备 ， 只 要 这 个 设备 的 作用 是 将 一 个 外 部 功 
能 接 入 主机 总 线 。 所 以 ，PC 上 用 的 PCI/PCIE 网 卡 、 显 卡 、 声 卡 和 AGP 显卡 等 都 可 以 叫做 
HBA。 

图 8.17 所 示 的 就 是 PCI 接口 的 FC 适配器 。 

图 8.18 所 示 的 是 可 以 用 来 接 入 FC 网 络 的 各 种 线 缆 ， 可 以 看 到 SC 光纤 、DB9 铜 线 和 
RJ45/47 线 缆 ， 它 们 都 可 以 用 于 接 入 FC 网 络 ， 只 要 对 端 设备 也 具有 同样 的 接口 。 所 以 ， 千 
万 不 要 认为 FC 就 是 光纤 ， 这 是 非常 滑稽 的 。 

同样 ， 也 不 要 认为 FC 交换 机 就 是 插 光纤 的 以 太 网 交换 机 ， 这 是 个 低级 错误 。 称 呼 FC 
为 光纤 的 习惯 误导 了 不 少 人 。FC 协议 是 一 套 完全 独立 的 网 络 协议 ， 比 以 太 网 要 复杂 得 多 。 
FC 其 实 是 Fibre Channel 的 意思 ， 由 于 Fibre 和 Fiber 相似 ， 再 加 上 FC 协议 普遍 都 用 光纤 
作为 传输 线 缆 而 不 用 铜 线 ， 所 以 人 们 下 意识 的 称 FC 为 光纤 通道 协议 而 不 是 网 状 通道 协议 。 
但 是 要 理解 , FC 其 实 是 一 套 网 络 协议 的 称呼 , FC 协议 和 光纤 或 者 铜 线 实 际 上 没有 必然 联系 。 
如 果 可 能 的 话 ， 也 可 以 用 无 线 、 微 波 、 红 外 线 或 紫外 线 等 来 实现 FC 协议 的 物理 层 。 
太 网 协议 与 是 否 用 光纤 或 者 铜 线 、 双 绞 线 来 传输 也 没有 必然 联系 。 

所 以 “FC 交换 机 就 是 插 光纤 的 以 太 网 交换 机 ”的 说 法 是 错误 的 。 同 样 “ 以 太 网 就 是 双 
绞 线 ”和 “以 太 网 就 是 水 晶 头 ”这 些 说 法 都 是 滑 移 的 。 

FC 适配器 本 身 也 是 一 个 小 计算 机 系统 , 有 自己 的 CPU 和 RAM 以 及 ROM。ROM 中 存放 
Firmware， 加 电 之 后 由 其 上 的 CPU 载 入 运行 。 可 以 说 就 是 一 个 嵌入 式 设 备 ， 与 RAID F% 
似 ， 只 不 过 不 像 RAID 卡 一 样 需要 那么 多 的 RAM 来 做 为 数据 缓存 。 
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Ble-:7 FC 适 配 卡 图 s.18 各 种 接口 的 FC HBA 


8.4 改造 盘 阵 前 端 通路 一 SCSI 迁移 到 


FC 


现在 是 考虑 把 原来 基于 并 行 SCSI 总 线 的 存储 网 络 架构 全 面 迁移 到 FC 提供 的 这 个 新 的 


网 络 架构 的 时 候 了 ! 


集 )， 另 一 种 就 是 SCSI 语言 (SCSI 指令 集 )。 那 么 FC 是 否 有 必要 再 开 
有 必要 了 。SCSI 指令 集 无 疑 是 一 个 高 效 的 语言 ，FC 只 需要 将 SCSI 语言 拿 来 
须 将 这 种 语言 承载 于 新 的 FC 传输 载体 进行 传送 。 

SCSI 协议 集 是 一 套 完整 而 不 可 分 的 协议 体系 ， 同 样 有 0SI 中 的 各 个 层 
- 行 传输 。SCSI 协议 集 的 应 用 层 其 实 就 是 SCS 协议 指令 ， 这 些 指令 带 有 强 


RA 


总 线 技术 来 传送 指令 ， 这 个 无 疑 是 一 个 致命 的 限制 。 随 着 技术 的 发 展 ， 并 # 
度 和 效率 上 已 经 远 远 无 法 满足 要 求 。 好 在 SCSI-3 协议 规范 中 ， 将 scsi fü 
上 三 层 ) 和 SCSI 底层 传输 部 分 [0SI 下 四 层 ) 分 割 开 了 , 使 得 SCSI 指令 集 可 以 
输 方式 进行 传输 ， 而 不 仅仅 限于 并 行 SCSI 总 线 了 。 
FC 的 出 现 就 是 为 了 取代 SCSI 协议 集 的 底层 传输 模块 ， 由 FC 协议 的 底 


将 自己 的 底层 传输 流程 外 包 给 了 FC 协议 来 做 。 


但 是 FC 协议 只 是 定义 了 一 套 完整 的 网 络 传输 体系 ， 并 没有 定义 诸如 SCSI 指令 集 这 样 
可 用 于 向 磁盘 存 取 数据 的 通用 语言 。 而 目前 已 经 有 了 两 种 语言 , 一 种 是 ATA 语言 (ATA 指令 


种 语言 ? 完全 没 
用 就 可 以 , 但 必 


次 。 物 理 层 使 用 
烈 应 用 层 语义 。 


而 我 们 要 解决 的 就 是 如 何 将 这 些 指令 帧 传送 到 对 方 。 早期 并 行 SCSI 时 代 ， 就 是 用 SCSI 并 行 


T SCSI 总 线 在 速 
令 语 义 部 分 [OSI 
史 用 其 他 网 络 传 


层 模块 担当 传输 


通道 和 手段 , 将 SCSI 协议 集 的 上 层 内 容 传送 到 对 方 。 可 以 说 是 SCSI 协议 集 租 用 了 FC 协议 ， 


FC 协议 定义 了 在 FC4 层 上 的 针对 SCSI 指令 集 的 特定 接口 , 称 为 FCP, 也 就 是 SCSI over 


FC。 由 于 是 一 个 全 新 的 尝试 ， 所 以 FC 协议 决定 先 将 连接 主机 和 磁盘 阵列 
SCSI 总 线 替 换 为 串 行 传输 的 FC 通路 。 而 盘 阵 后 端 连接 磁盘 的 接口 ， 还 是 
不 变 。 

从 图 8.19 中 可 以 看 到 ， 连 接 主机 的 前 端 接 口 已 经 蔡 换 成 了 FC 接口 ， 
上 的 SCSI 适配器 也 被 替换 成 了 FC 适配器 。 


经 过 这 样 改造 后 的 盘 阵 ， 单 台 盘 阵 所 能 接 入 磁盘 的 容量 并 没有 提升 ， 也 就 是 说 后 端 性 


能 和 容量 并 没有 提升 ， 所 提升 的 只 是 前 端 性 能 。 因 为 FC 的 高 效 、 高 速 和 伟 
行 SCSI 可 比 。 


的 通路 ， 从 并 行 
并 行 SCSI 接口 


原来 连接 在 主机 


输 距 离 ， 远 非 并 
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网 络 存 储 系 统 原 理 精 解 与 最 佳 实践 


主机 FC 适 配 月 


以 太 [ 


前 端 FC 接口 ， 后 端 SCSI 接 口 的 磁盘 阵列 。 通 过 点 对 点 FC 直 连 模式 和 主机 连接 


图 8.19 Büim FC. mim SCSI 架构 的 盘 阵 示意 图 


站 理解: 虽然 链 路 被 替换 成 了 FC， 但 是 链 路 上 所 承载 的 应 用 层 数据 并 没有 变化 ， 
依然 是 SCSI 指令 集 ， 和 并 行 SCSI 链 路 上 承载 的 指令 集 一 样 ， 只 不 过 换 成 FC 
融 协 议 及 其 底层 链 路 和 接口 来 传输 这 些 指令 以 及 数据 而 已 。 


从 图 8.19 中 可 以 看 到 ， 不 管 是 主机 上 的 FC 适配器 还 是 盘 阵 上 的 控制 器 ， 都 没有 抛弃 
SCSI 指令 集 处 理 模块 ， 被 抛弃 的 只 是 SCSI 并 行 总 线 传输 模块 。 也 就 是 抛弃 了 原来 并 行 SCSI 
协议 集 位 于 ost 的 下 四 层 (用 FC 的 下 四 层 代替 ]， 保 留 了 整个 SCSI 协议 的 上 三 层 ， 也 就 是 
SCSI 指令 部 分 。 

将 磁盘 阵列 前 端 接口 用 FC 替代 之 后 ， 极 大 地 提高 了 传输 性 能 以 及 传输 距离 ， 原 来 低 效 
率 、 低 速度 和 短 距离 的 缺点 被 彻底 克服 了 。 


8.5 引入 FC 之 后 


1. 提高 了 扩展 性 

FC 使 存储 网 络 的 可 扩展 性 大 大 提高 。 如 图 8.20 所 示 ， 一 台 盘 阵 如 果 只 提供 一 个 FC 前 
端 接口 ， 同 样 可 以 连接 多 台 主 机 ， 办 法 是 把 它们 都 连接 到 一 台 FC 交换 机 上 。 就 像 一 台 机 器 
如 果 只 有 一 块 以 太 网 卡 ， 而 没有 以 太 交换 机 或 HUB 的 话 ， 那 么 只 能 和 一 台 机 器 相连 。 如 果 
有 了 以 太 网 交换 机 或 HUB， 它 就 可 以 和 N 台 机 器 连接 。 使 用 FC 交换 机 的 道理 一 样 ， 这 就 
是 引入 包 交 换 网 络 化 所 带 来 的 飞跃 。 

台 主 机 共享 一 台 盘 阵 同 时 读 写 数据 ， 这 个 功能 在 并 行 SCS 时 代 是 想 都 不 敢 想 的 。 虽 

然 并 行 SCSI 总 线 网 络 可 以 接 入 16 个 节点 ， 比 如 15 台 主 机 和 一 台 盘 阵 连 入 一 条 SCSI 总 线 ， 
这 15 台 主 机 只 能 共享 这 条 总 线 的 带宽 ， 假 设 带 宽 为 320MB/s， 如 果 15 台 主 机 同时 读 写 ， 
则 理论 上 平均 每 台 主 机 最 多 只 能 得 到 20MB/s 的 带宽 。 而 这 只 是 理论 值 ， 实 际 加 上 各 种 开 
销 和 随机 IO 的 影响 ， 估 计 每 台 主机 能 获得 的 吞吐 量 会 不 足 10MB/s。 再 加 上 SCSI 线 线 最 长 
不 能 超过 25 米 ， 用 一 条 宽 线 线 去 连接 十 几 台 主机 和 盘 阵 的 难度 可 想 而 知 。 

而 引入 FC 包 交 换 网 络 之 后 ， 首 先是 速度 提升 了 一 大 截 ， 其 次 由 于 其 包 交 换 的 架构 ， 可 
以 很 容易 的 实现 多 个 节点 向 一 个 节点 收发 数据 的 目的 。 
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图 8.20 多 主机 共享 盘 阵 

2. 增加 了 传输 距离 

FC 携带 有 现代 通信 的 特质 ， 比 如 可 以 使 用 光纤 。 而 这 就 可 以 使 主机 和 与 远 隔 几 百 米 其 
至 上 千 米 (使 用 单 模 光 缆 ) 之 外 的 盘 阵 相连 并 读 写 数据 。 

3. 解决 安全 性 问题 
可 能 很 多 人 还 会 有 疑问 ， 在 图 8.20 所 示 的 拓扑 中 ， 多 个 主机 共用 一 台 只 有 一 个 外 部 接 

的 盘 阵 不 会 冲突 么 ?当然 不 会 。 第 一 ， 交 换 机 允许 多 个 端口 访问 同一 个 端口 是 一 个 分 时 
复 用 的 包 交 换 过程 ， 这 个 是 无 庸 置疑 的 。 第 二 ， 盘 阵 上 的 FC 前 端 接口 允许 多 个 其 他 端口 进 
行 Port Login 过 程 。 那 么 盘 阵 上 的 逻辑 磁盘 LUN 可 以 同时 被 多 个 主机 访问 么 ? 完全 可 以 。 
SCSI 指令 集中 有 一 个 选项 ， 即 独占 式 访问 或 者 共享 式 访问 。 
(1) 独占 式 访 问 ， 即 只 允许 第 一 个 访问 某 个 目标 节点 的 节点 保持 对 这 个 目标 节点 的 访 
问 ， 第 二 个 节点 要 向 这 个 目标 节点 发 起 访问 请 求 ， 每 不 被 允许 ， 除 非 上 一 个 节点 发 出 了 释 
放 指 令 。 独 占 模式 下 ， 每 台 主 机 每 次 访问 目标 前 都 需要 进行 SCSI Reserve， 使 用 完 后 再 进行 
SCSI Release 释放 SCSI 目标 ， 这 样 其 他 节点 才能 访问 那个 目标 。 

(2) 共享 式 访问 ， 即 允许 任何 人 来 访问 ， 没 有 任何 限制 。 

所 以 , 盘 阵 上 的 任何 LUN 都 可 以 被 多 台 主 机 通过 一 个 前 端 接口 或 者 多 个 前 端 接 口 访 问 。 
这 是 一 个 优点 ， 也 是 一 个 隐患 。 因 为 多 个 主机 在 没有 相互 协商 和 同步 的 情况 下 ， 一 旦 对 同 
一 个 LUN 都 进行 写 操作 的 话 ， 就 会 造成 冲突 。 比 如 两 台 Windows 主机 正 处 于 运行 状态 ， 它 
们 都 通过 FC 适 配 卡 识别 到 了 磁盘 阵列 上 的 同一 个 LUN。 此 时 主机 A 向 这 个 LUN 上 写 了 一 
个 文件 ， 假 设 主机 B 已 经 将 文件 系统 的 元 数据 读 入 了 内 存 ， 磁 盘 上 的 数据 被 主机 A 更 改 这 
个 动作 主机 B 是 感受 不 到 的 。 隔 一 段 时 间 之 后 ， 主 机 B 可 能 将 文件 系统 缓存 Flush 到 磁盘 ， 
此 时 可 能 会 抹 掉 这 个 文件 的 元 数据 信息 。 
所 以 ， 在 没有 协商 和 同步 机 制 的 两 台 主机 之 间 共 享 一 个 LUN 是 一 件 可 怕 的 事情 。 要 解 
决 这 个 问题 ， 可 以 每 次 只 开 一 台 机 器 ， 主 机 B 想 访问 就 必须 把 主机 A 关机 或 卸载 该 卷 ， 然 
后 主机 B 开机 或 挂 载 该 卷 ， 这 样 才能 保证 数据 的 一 致 性 。 但 这 样 有 点 过 于 复杂 。 第 二 种 办 
法 就 是 使 两 台 或 者 多 台 机 器 同时 开机 或 同时 挂 载 该 卷 ， 而 让 机 器 上 的 文件 系统 之 间 相 互 协 
商 同 步 ， 配 合 运作 。 我 写 入 的 东西 会 让 你 知道 。 如 果 我 正在 写 入 ， 那 么 你 不 能 读 取 ， 因 为 
你 可 能 读 到 过 时 的 信息 。 
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在 文件 系统 上 增加 这 种 功能 ， 


需要 对 文件 系统 进行 修改 ， 或 直接 安装 新 的 文件 系统 模 


块 。 这 种 新 的 文件 系统 叫做 集群 文件 系统 ， 能 保证 多 个 机 器 共享 一 个 卷 ， 不 会 产生 破坏 。 
有 些 情 况 确 实 需要 让 两 台 机 器 同时 可 以 访问 同一 个 卷 (如 集群 环境 ), 但 是 大 多 数 情况 下 
是 不 需要 共享 同一 个 卷 的 ， 每 台 机 器 拥有 各 自 的 卷 ， 都 只 能 访问 属于 自己 的 卷 ， 这 样 不 就 


太平 了 么 ? 
是 的 ， 


(1) 在 磁盘 阵列 控制 器 上 做 “手脚 ”。 


要 做 到 这 一 点 有 两 种 方法 。 分 析 从 主机 到 盘 阵 上 的 LUN 的 通路 ， 可 以 发 现 通路 
上 有 两 个 部 件 ， 第 一 个 部 件 是 FC 网 络 交换 设备 ， 第 二 个 部 件 就 是 磁盘 阵列 控制 器 。 可 以 在 
这 两 个 部 件 上 做 某 种 “隐藏 ”或 者 “欺骗 ”， 让 主机 只 能 对 属于 它 自己 的 LUN 进行 访问 。 


SCSI 指令 集中 有 一 条 指令 叫做 Report LUN, 也 就 是 在 SCSI 发 起 端 和 目标 端 通信 的 时 候 ， 


由 发 起 端 发 出 这 条 指令 ， 目 标 端 在 接收 到 这 条 指令 之 后 ， 就 要 向 发 起 端 报告 自己 
息 。 可 以 在 这 上 面 做 些 手脚 ， 骗 发 起 端 一 把 。 当 发 起 端 要 求 Report LUN 的 时 候 ， 盘 阵 控制 


器 可 以 根据 发 起 端的 惟一 身份 [比如 WWPN 地 址 ])， 提 供 相 应 的 LUN 报告 给 它 。 


告 相应 的 


主机 A 


WWPN 地 址 : 00-16-E3-6E-78-05-0A-FD 


主机 B 


WWPN 地 址 : 00-16-E3-6E-78-05-0A-0A 


主机 C 


WWPN 地 址 : 00-16-E3-6E-78-05-0A-3B 


如 果 某 个 主机 强行 访问 不 属于 它 的 LUN， 盘 阵 控制 器 便 会 拒绝 这 个 请 求 


七 如 针对 主机 A， 控 制 器 就 报告 给 它 LUN1、LUN2、LUN3 。 虽 然 盘 阵 上 还 配置 很 多 其 
他 的 卷 ， 比 如 LUN4、LUN5、LUN6 等 ， 但 是 如 果 告 诉 控制 器 ， 让 它 根据 一 张 表 8.1 所 示 的 
映射 表 来 判断 应 该 报告 给 某 个 主机 哪个 或 哪些 LUN 的 话 ， 控 制 器 就 会 乖乖 的 按照 指示 来 


LUN 给 相应 的 主机 。 
表 8.1 LUN 映射 表 


针对 哪个 主机 (WWPN 地 址 ) 报告 哪个 或 者 哪些 LUN 


LUN1、 LUN2、LUN3 
LUN4, LUNS 


LUN6 


) LUN 信 


。 上 面 那 张 映 


射 表 完 全 需要 人 为 配置 ， 因 为 盘 阵 控制 器 不 会 知道 我 们 的 具体 需求 。 所 以 对 于 一 个 盘 阵 来 


说 ， 要 想 实现 对 主机 的 LUN 掩蔽 ， 必 须 配 置 这 张 表 。 


盘 阵 上 的 这 个 功能 叫做 LUN Masking(LUN 掩蔽 )， 也 就 是 对 特定 的 主机 报告 特定 的 
LUN。 这 样 可 以 避免 “越界 ”行为 ， 也 是 让 多 台 主 机 共享 一 个 盘 阵 的 方法 ， 从 而 让 多 台 3 
和 平 共享 一 台 盘 阵 资源 。 毕 竟 ， 对 于 容量 动 辑 几 TB 甚至 几 百 TB 的 大 型 盘 阵 来 说 ， 如 果 不 


加 区 分 的 让 所 有 


全 的 。 
不 仅 


E 机 


连接 到 这 台 盘 阵 的 主机 都 可 以 访问 到 所 有 的 卷 是 没有 必要 的 ， 也 是 不 安 


FC 接口 盘 阵 有 这 个 功能 ，SCSI 前 端 接口 盘 阵 照样 可 以 实现 这 个 功能 ， 因 为 这 是 


SCSI 指令 集 的 功能 ， 而 不 是 传输 总 线 的 功能 。 不 管用 什么 来 传输 SCSI 指令 集 ， 只 要 上 面 能 


承载 SCSI 


指令 集 ， 那 么 指令 集中 所 有 功能 都 可 用 。 


磁盘 阵列 除了 可 以 将 某 些 LUN 分 配给 某 个 主机 之 外 ， 还 可 以 配置 选择 性 的 将 某 个 或 某 


些 LUN 分 配 到 某 个 前 端 端口 上 。 也 就 是 说 ， 设 置 前 端 主机 只 有 从 某 个 盘 阵 端口 进入 才 鲁 
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问 到 对 应 的 LUN， 从 盘 阵 前 端 其 他 端口 访问 不 到 这 些 LUN。 有 些 双 控制 器 的 盘 阵 可 以 定制 
策略 将 某 些 LUN 分 配 到 某 个 控制 器 的 某 些 端口 上 F。LUN Masking 的 策略 非常 灵活 ， 只 要 有 
需求 就 没有 开发 不 出 来 的 功能 。 

总 之 ， 可 以 把 LUN 当 作 蛋糕 ， 有 很 多 食客 (主机 ) 想 吃 这 些 蛋 糕 。 然 而 ， 食 客 要 吃 到 蛋 
糕 ， 需 要 首先 通过 迷宫 (FC 网 络 ]， 然 后 到 达 一 个 城堡 (磁盘 阵列 ] 。 城 堡 有 好 几 个 门 ( 盘 阵 的 
前 端 接 口 )， 如 果 城 堡 的 主人 很 宽松 ， 会 把 所 有 蛋糕 分 配 到 所 有 门 中 ， 从 任何 一 个 门 进入 都 
可 以 吃 到 所 有 蛋糕 。 如 果 主 人 决定 严格 一 些 ， 那 么 他 也 许 会 将 一 部 分 蛋糕 分 配 到 1 号 门 ， 
另 一 部 分 蛋糕 分 配 到 2 号 门 。 如 果 主人 非常 非常 严格 ， 那 他 会 调查 每 个 食客 的 身份 ， 然 后 
制定 一 个 表格 ， 根 据 不 同 身份 来 给 食客 不 同 的 蛋糕 。 

(2) dE FC 交换 设备 上 做 “手脚 ”。 

我 们 前 面 提 到 过 ZONE。ZONE 就 是 在 FC 网 络 交 换 设 备 上 阻 断 两 个 节点 间 的 通路 ， 这 
样 某 些 节点 就 根本 无 法 获取 并 访问 到 被 阻 断 的 其 他 节点 , 也 就 识别 不 到 其 上 的 LUN T o LUN 
masking 只 是 不 让 看 见 某 个 节点 上 的 某 些 LUN 而 已 ， 而 ZONE 的 做 法 更 彻底 ， 力 度 更 大 。 

ZONE 有 软 ZONE 和 硬 ZONE 之 分 。 软 ZONE 就 是 在 名 称 服务 器 上 做 手脚 ， 欺 骗 进行 名 
称 注册 的 节点 ， 根 据 ZONE 配置 的 信息 向 登录 节点 通告 网 络 上 的 其 他 节点 以 及 资源 的 信息 。 
TE ZONE 就 是 直接 把 交换 机 上 某 些 端口 归 为 一 个 ZONE， 另 一 些 端口 归 为 另 一 个 ZONE， 在 
两 个 ZONE 之 间 完 全 底层 隔离 ， 端 口 之 间 都 不 能 通信 ， 如 图 8.21 所 示 。 


ENA ug Etc| 
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FC 位 全 阵列 A FC es 


图 8.21 zowE 示意 图 

图 中 有 两 个 ZONE，FC ABE B 所 连接 的 交换 机 端口 既 在 左边 的 ZONE 里 ， 又 在 右边 的 
ZONE 中 ， 这 样 是 允许 的 。 这 个 例子 中 ,主机 C 是 无 法 和 盘 阵 A 通信 的 ， 它 只 能 识别 到 盘 阵 
B 上 的 LUN。 
有 了 LUN Masking fil ZONE, FC 网 络 的 安全 就 得 到 了 极 大 的 保障 ， 各 个 节点 之 间 可 以 
按照 事先 配置 好 的 规则 通信 。 
4. 多 路 径 访问 目标 
再 来 看 一 下 图 8.22。 这 是 一 个 具有 双 控制 器 的 盘 阵 ， 两 个 控制 器 都 连接 到 了 交换 机 上 ， 
而 且 每 个 主机 上 都 有 两 块 FC 适 配 卡 ， 也 都 连接 到 了 交换 机 上 。 前 文 说 过 ， 如 果 在 盘 阵 上 没 
有 做 LUN Masking 的 策略 ， 而 在 FC 交换 机 上 也 没有 做 任何 ZONE 的 策略 ， 则 任何 节点 都 可 
以 获取 到 网 络 上 所 有 其 他 节点 的 信息 。 

假设 盘 阵 上 有 一 个 LUN1 被 分 配给 控制 器 A，LUN2 被 分 配给 控制 器 B， 那 么 可 以 计算 
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出 来 ， 每 个 主机 将 识别 到 4 块 磁盘 。 因 为 每 个 主机 有 两 块 FC 适 配 卡 ， 每 个 适 配 卡 又 可 以 识 


别 到 控制 器 A 上 的 LUN1 和 控制 器 B 上 的 LUN2。 也 就 是 说 , 每 台 主 机 会 识别 到 双 份 元 余 的 
磁盘 ， 而 主机 操作 系统 对 这 一 切 一 无 所 知 ， 它 会 认为 识别 到 的 每 块 磁盘 都 是 物理 上 独立 的 ， 


这 样 很 容易 造成 混乱 。 


主机 B| 


主机 C| 


控制 器 A 


控制 器 B 


up FC 磁盘 阵列 


图 8.22_ 多 路 径 访问 示意 图 
既然 会 造成 混乱 ， 那 么 为 何 要 在 一 台 主机 上 安装 两 块 FC 适 配 卡 呢 ? 就 是 为 了 元 余 ， 以 
防止 单 点 故障 。 一 旦 某 块 FC 卡 出 现 了 故障 ， 另 一 块 卡 依然 可 以 维持 主机 到 盘 阵 的 通路 ， 数 


据 流 可 以 立即 转向 另外 一 块 卡 。 


如 何 解决 操作 系统 识别 出 多 份 磁盘 这 个 问题 呢 ? 办 法 就 是 在 操作 系统 上 安装 软件 ， 这 
个 软件 识别 并 分 析 FC 卡 提交 上 来 的 LUN。 如 果 是 两 个 物理 上 相同 的 LUN, 软件 就 向 操作 系 
统 卷 管理 程序 提交 单 份 LUN。 如 果 某 块 FC 卡 故 障 ， 只 要 主机 上 还 有 其 他 的 FC 卡 可 以 维持 


到 FC 网 络 的 通路 ， 那 么 这 个 软件 依然 会 向 操 人 


E 系 统 提 交 单 份 LUN。 一 旦 所 有 FC 卡 全 都 故 


障 了 ， 主 机 就 彻底 从 FC 网 络 断 开 了 ， 这 个 软件 也 就 无 法 提交 LUN. 了 ， 操 作 系 统 当然 也 识 


别 不 到 盘 阵 上 的 LUN To 


此 外 ， 如 果盘 阵 的 某 个 控制 器 接口 发 生 故 
到 另 一 个 备份 控制 器 ， 使 用 备份 控制 器 继续 访 
这 种 软件 叫做 “多 路 径 ” 软 件 ， 每 个 盘 阵 
路 径 软 件 。 多 路 径 软 件 除了 可 以 做 到 元 余 高 可 
为 主机 上 如 果 安 装 了 多 块 FC 适 配 卡 ， 数 据 就 可 


担 了 流量 。 
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章 ， 主 机 同样 可 以 通过 这 个 软件 立即 重 定 


开发 商都 会 提供 自己 适合 不 同 操作 系统 的 多 
用 性 的 作用 之 外 ， 还 可 以 做 到 负载 均衡 。 因 
以 通过 其 中 任何 一 块 卡 到 达 目 的 ， 这 样 就 分 
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话说 FC 协议 横 空 出 世 ， 在 江湖 上 引起 了 轩然大波 ， 各 门派 纷纷 邀请 FC 协议 来 参 
与 存储 磁盘 阵列 的 制造 ， 用 FC 协议 实现 盘 阵 与 主机 的 连接 。 

以 前 并 行 SCSI 的 时 代 已 经 结束 ， 那 又 宽 又 短 的 电缆 终于 可 以 彻底 将 其 抛 齐 ， 取 而 
代 之 的 是 细 长 的 光纤 。 
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9.1 FC 交换 网 络 替 代 并 行 SCSI 总线 的 必然 性 


历史 是 不 断 前 进 的 ， 事 物 也 是 不 断 发 展 的 ， 新 技术 必定 取代 旧 技术 。FC 取代 并 行 SCSI 
总 线 有 两 个 根本 原因 。 


9.1.1 面向 连接 与 面向 无 连接 


在 并 行 SCSI 总 线 时 代 并 没有 复杂 的 链 路 层 协 议 ,“ 连 就 体现 在 线 缆 上 , 就 像 连 接 CPU 
和 北桥 之 间 的 铜 线 一 样 ， 只 不 过 SCSI 线 缆 被 做 成 了 柔软 的 外 置 线 缆 而 已 。 基 本 在 这 种 短线 
缆 上 可 以 不 必 考虑 通信 层面 的 内 容 ， 因 为 距离 很 得 ， 线 路 是 稳定 的 ， 不 需要 加 入 诸如 传输 
保障 机 制 之 类 的 东西 。 同 时 ， 这 种 情况 也 相当 于 面向 连接 的 电路 交换 ， 遂 信 的 双方 要 预先 
建立 一 条 物理 上 的 通路 ( 虚 电 路 )， 不 管 有 没有 数据 流 ， 这 条 通路 总 是 存在 ， 且 带宽 固定 ， 别 
人 也 抢 不 走 这 条 电路 的 使 用 权 ， 这 就 给 通信 双方 提供 了 最 大 的 质量 和 稳定 性 保证 。 在 这 样 
的 链 路 上 ， 不 需要 过 多 的 底层 传输 协议 开销 。 
相反 ， 在 面向 无 连接 的 包 交 换 网 络 中 ， 数 据 流 被 封装 成 数据 包 ， 传 输 保 障 和 流量 控制 
d 素 就 显得 十 分 重要 了 。 因 为 此 时 网 络 是 共享 的 ， 网 络 按照 Best Effect 尽力 而 为 的 转发 
数据 包 。 以 太 网 和 FC 交换 网 络 都 属于 这 种 面向 无 连接 的 技术 (FC 中 Classl 类 型 服务 除外 ] 。 
而 电话 交换 网 、 并 行 SCSI 总 线 网 就 属于 面向 连接 的 网 络 。 当 你 提 机 拨号 的 时 候 ， 电 话 
的 电话 交换 机 便 会 在 你 和 你 通信 的 对 方 之 间 建 立 起 一 条 物理 电路 ， 从 而 使 双方 通信 。 
fH 
IU! 


ONG 


Ji 
au 
SH 
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大 家 可 以 观察 一 下 电话 交换 机 ， 每 当 有 外 线 拨 入 的 时 候 ， 就 可 以 听 到 交换 机 里 
有 了 吧 哄 吧 哄 的 声音 ， 这 就 是 交换 机 在 做 继电器 开 合 动作 。 


对 于 并 行 SCSI 总 线 ， 当 通信 发 起 者 需要 和 某 个 节点 通信 的 时 候 ， 它 会 申请 总 线 仲裁 
在 获得 总 线 资源 之 后 ， 便 直接 和 对 方 发 起 通信 ， 此 时 并 没有 一 个 显 式 的 连接 建立 的 过 程 。 
物理 通路 总 是 存在 的 ， 在 任意 两 点 之 间 都 存在 ， 只 不 过 这 个 通路 是 个 总 线 ， 是 大 家 共享 的 ， 
需要 通过 仲裁 来 获得 总 线 使 用 权 ， 也 就 等 价 于 建立 独 享 连接 。SCSI 指令 和 数据 可 以 直接 在 
这 个 总 线 上 传递 ， 并 不 需要 过 多 的 额外 的 协议 开销 。 

1. 面向 连接 的 致命 弱点 

但 是 面向 连接 的 通信 有 三 个 致命 弱点 。 

面向 连接 网 络 的 第 一 个 弱点 ， 就 是 资源 浪费 。 特 别 是 在 交换 环境 中 ， 由 于 不 管 路 径 上 
有 没有 数据 传输 ， 这 条 预先 建立 的 连接 必须 保持 并 且 只 给 特定 的 通信 双方 使 用 ， 其 他 节点 
的 通信 不 管 数据 多 么 拥塞 都 不 能 使 用 这 条 路 径 。 面 向 连接 的 网 络 好 比 一 个 城市 的 公交 系统 ， 
每 条 公交 线路 都 是 固定 的 ， 不 管 这 条 线路 上 的 客流 量 多 少 ， 就 算 没 有 人 坐 这 条 线路 了 ， 公 
交 车 也 要 来 回 跑 。 而 面向 无 连接 的 网 络 就 好 比 出 租车 。 在 没有 人 的 时 候 ， 出 租车 可 以 等 待 
客人 到 来 。 一 旦 有 客人 到 来 ， 出 租车 便 会 上 路 ， 而 且 路 线 不 是 固定 的 ， 司 机 可 以 按照 目前 
道路 流量 情况 ， 选 择 空闲 的 道路 前 往 目的 地 。 
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面向 连接 的 网 络 的 第 二 个 弱点 是 维持 和 维护 这 条 连接 所 耗费 的 成 本 高 。 通 信 双 方 距离 
近 ， 没 什么 问题 。 但 是 一 旦 距离 很 还 ， 要 维持 这 条 物理 连接 ， 就 需要 很 高 的 成 本 。 要 解决 
长 距离 传输 的 干扰 问题 、 需 要 中 继 等 ， 这 也 是 长 途 电话 费 居 高 不 下 的 一 个 原因 。 
面向 连接 网 络 的 第 三 个 缺点 ， 就 是 缺乏 高 可 用 性 。 一 旦 建立 好 的 虚 电 路 因为 某 种 原因 
断 开 了 ， 就 需要 通信 发 起 者 重新 建立 电路 才能 继续 双方 的 通信 。 这 种 现象 在 打 长 途 电话 的 
计 候 经 常会 遇 到 ， 此 时 不 得 不 重新 拨打 。 而 对 于 包 交 换 网 络 ， 通 信 双 方 没 有 一 条 固定 的 数 
居 流 路 径 ， 交 换 或 路 由 设备 会 自行 判断 数据 流 应 当 通过 哪 条 路 径 到 达 对 方 。 一 旦 某 条 动态 
的 路 径 不 再 可 用 ， 交 换 设备 会 立即 选用 其 他 可 以 到 达 对 方 的 路 径 ， 而 这 个 短 时 的 中 断 所 造 
成 的 影响 会 交 给 通信 双方 运行 的 传输 保障 协议 来 处 理 ， 丢 失 的 数据 包 会 被 重 传 。 而 用 户 对 
不 必 关 心 ， 最 多 会 感觉 有 短暂 延迟 ， 而 不 必 重 新 和 对 方 建立 连接 。 

2. 面向 无 连接 的 优势 

面向 无 连接 的 包 交 换 网 络 比 面 向 连接 的 网 络 有 很 多 优势 。 面 向 无 连接 的 包 交 换 网 络 是 
四 络 通 信 的 一 种 趋势 ， 目 前 的 VOIP, IPTV 等 应 用 都 是 想 利用 包 交 换 网 络 来 代替 普通 的 电话 
交换 网 络 和 有 线 电视 网 络 。 

不 要 把 “面向 无 连接 ”和 “TCP 是 有 连接 的 ”混淆 在 一 起 。TCP 是 一 个 端 到 端的 协议 ， 
它 运 行 于 通信 双方 ， 而 不 是 通信 所 经 过 的 网 络 设备 上 。TCP 的 连接 不 是 物理 连接 而 是 逻辑 
连接 。TCP 其 实 就 是 一 个 状态 ， 本 身 保 持 一 个 状态 机 用 来 侦 测 双方 的 数据 流 是 否 成 功 发 送 
或 者 接收 。 实 际 通信 两 点 间 的 连接 可 以 经 过 包 交 换 网 络 ， 同 样 也 可 以 经 过 面向 连接 的 网 络 。 


也 就 是 说 ，“ 面 向 连接 ”和 “面向 无 连接 ”是 指 链 路 层 的 概念 ， 而 TCP 是 传输 层 的 


912 串 行 和 并 行 

串 行 传输 在 长 距离 高 速 传输 方面 ， 也 必 将 取代 并 行 传输 。 

并 行 SCSI 总 线 就 是 一 种 面向 连接 的 并 行 的 共享 总 线 技术 。 其 趋势 就 是 必 将 被 高 速 串 行 

的 、 面 向 无 连接 的 网 络 通信 技术 所 取代 。 取 代 之 后 的 结果 ， 必 将 使 这 个 网 络 的 扩展 性 大 大 

增强 ， 使 存储 系统 和 主机 系统 可 以 远 隔 千里 进行 通信 。 
得 益 于 FC 带 来 的 诸多 好 处 , 现在 人 们 终于 可 以 摆脱 存储 系统 和 主机 必须 放 在 一 起 的 限 

制 了 。 如 果 主 机 在 北京 ， 而 盘 阵 可 以 在 青岛 ， 它 们 之 间 通 过 租用 ISP 的 光缆 线路 进行 连接 ， 

在 这 条 线路 上 承载 FC 协议 ， 从 而 达到 主机 和 盘 阵 之 间 的 通信 。 这 样 ， 在 北京 的 主机 上 就 可 

以 直接 认 到 远 在 青岛 的 盘 阵 上 的 LUN 逻辑 盘 。 

T FC 接口 速度 可 以 是 1Gb, 2Gb, 4Gb 甚至 8Gb， 并 且 盘 阵 前 端 可 以 同时 提供 多 个 

主机 接口 ， 所 以 它们 带宽 之 和 远 远 高 于 后 端 连接 磁盘 的 并 行 SCSI 总 线 提供 的 速度 。 这 样 ， 

就 可 以 在 盘 阵 的 后 端 增加 更 多 的 SCSI 通道 , 以 便 接 入 更 多 的 磁盘 来 饱和 前 端 FC 接口 的 速率 。 


9.2 不 甘 示 弱 一 一 后 端 也 升级 换代 为 FC 


在 将 主机 与 盘 阵 之 间 的 接口 、 链 路 都 替换 成 FC 协议 之 后 ， 人 们 不 断 增 加 磁盘 阵列 后 端 
磁盘 的 数量 ， 以 达到 前 端 众多 FC 接口 的 饱和 速率 。 但 是 此 时 瓶颈 出 现 了 ， 后 端 每 增加 一 个 
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SCSI 通道 ， 最 多 能 接 入 


15 块 磁盘 ， 数 量 太 少 了 。 增 加 SCSI 通道 也 不 是 一 个 最 终 解 决 办 法 ， 


能 和 否 找到 一 种 彻底 地 解决 办 法 呢 ? 


抛弃 老爷 车 一 一 让 


SCSI 搭乘 高 速 专列 


要 解决 这 个 问题 ， 就 要 彻底 抛弃 盘 阵 后 端的 SCSI 并 行 传输 总 线 网 络 ， 就 像 当初 抛弃 前 
端 SCSI 总 线 一 样 。 而 且 不 仅仅 要 使 接 入 硬盘 的 数量 增加 ， 还 要 高 速 、 稳 定 。 既 然 已 经 将 前 


端 传输 网 络 替 换 成 了 
理论 上 是 完全 可 行 的 。 


可 


节点 间 可 以 同时 


FC 交换 


于 FC 协议 系统 提供 了 两 种 网 络 拓扑 架构 ， 所 以 要 考察 后 端 存储 网 络 到 底 使 
构 比 较 合适 。 首 先 交 换 式 架构 Fabric 是 一 种 包 交 换 网 络 ， 寻 址 容量 大 ， 交 换 速 度 
| 进行 线 速 交换 ， 无 阻塞 通信 ， 但 是 成 本 较 高 。j 


网 络 ,那么 是 否 可 以 将 后 端 网 络 也 从 并 行 SCSI 替换 成 FC 呢 ? 


哪 种 架 
类 ， 名 个 
其 次 是 FC-AL 仲裁 环 架构 ， 


带宽 共享 ,每 个 环 寻 于 
也 低 很 多 。 第 7 章 讲 的 
FC-AL Jil 


由 共享 总 线 变 成 了 点 对 
纲 一 个 FC 交换 入 


pb 
能 会 


虽然 这 样 做 性 


按 4KB 数据 块 随机 访问 
约 700 次 /s。 这 种 情况 


F, 按 256KB 的 数据 块 对 硬盘 进行 顺 


大 约 564 次 /s，SCSI 总 


止 容量 128， 最 关键 的 一 点 ， 


< 说 ， 目 前 最 高 的 标准 是 Ultra 320, 3 
的 效率 ， 也 就 是 280MB/s 左右 。 有 人 做 过 实验 ， 在 Ultra 160( 裸 速率 160MB/s) 的 总 线 上 ， 


是 它 实现 起 来 比 交换 架构 简单 ， 而 且 成 本 
等 过 程 ， 都 是 在 Fabric 架构 中 才 发 生 的 ， 而 在 


FC 的 一 些 登 录 、 注 册 


是 男 外 一 套 环 初始 化 过 程 。 
如 果 把 每 个 磁盘 都 作为 一 个 节点 连接 到 Fabric 交换 网 络 中 ， 性 能 绝 允 
点 交换 式 通信 ， 性 能 也 会 提升 很 大 。 但 是 这 样 做 ， 


是 无 可 挑剔 的 ， 
不 但 要 在 盘 阵 的 
， 这 两 部 分 成 本 


1 阵 ， 而 且 要 在 每 块 磁盘 上 实现 FC 拓扑 中 的 N 端 


巨大 的 。 为 了 降低 成 本 ， 只 能 选择 性 能 稍 差 ， 但 是 成 本 低 的 FC-AL 仲裁 环 架构 来 连 
阵列 的 控制 器 和 磁盘 ， 而 且 在 每 块 磁盘 上 都 实现 FC 拓扑 中 的 上端 
LE Fabric 架构 差 , 但 是 至 少 比 并 行 SCSI 总 线 强 多 了 。 


对 于 并 行 SCSI 
320MB/s， 实 际 最 大 传输 率 大 概 能 有 85% 


6 块 SCSI 硬盘 时 ，SCSI 总 线 的 实际 访问 速度 为 2.74MB/s，IOPS 大 
下 ，SCSI 总 线 的 工作 效率 仅 为 总 线 带宽 的 1.7%。 在 完全 不 变 的 条 件 
写 , SCSI 总 线 的 实际 访问 速度 为 141.2MB/s, IOPS 
线 的 工作 效率 高 达 总 线 带 宽 的 88% 。 


HF FC-AL 目前 刚 
宽 要 高 。 不 仅 在 速率 上 ， 
其 裸 速率 仅 200MB/s， 
已 经 用 2G 的 FC-AL #4 
Ultra 320 一 半 的 速度 ， 
HEARE 


Sod 


2m 


要 有 三 个 。 
展 性 。 受 并 行 SCSI 总 线 仲裁 机 制 本 身 的 
16 个 节点 的 数量 已 经 达到 它 的 可 管理 极限 了 。 而 FC-AL 仲裁 环 则 不 然 ， 
极限 是 128 节点 ， 这 就 比 SCSI 总 线 强 多 
多 的 磁盘 ， 
接 扩 展柜 ] 。 

一 个 FC-AL 环 
闵 集成 在 一 个 控制 器 上 。 而 并 行 SCS 接口 和 线 缆 都 很 宽大 ， 想 集成 在 一 个 小 的 
-很 难 。FC 


上 普及 到 4Gb 的 带宽 ， 裸 速率 400MB/s， 这 样 就 比 Ultra 320 的 带 

FC 在 效率 上 也 比 Ultra320 并 行 总 线 要 高 。 但 是 2G 速率 的 FC-AL， 
Lt Ultra 320 低 很 多 。 而 在 4G 的 FC-AL 出 来 之 前 ， 很 多 磁盘 阵列 就 
后 端的 Ultra 320 总 线 了 。 为 何 这 些 产 品 宁愿 忍受 2G 速率 FC 相对 
也 要 将 其 后 端 蔡 换 为 FC 架构 呢 ? 


限制 ， 决 定 了 一 条 总 线 上 不 会 有 太 多 


了 。 这 个 限制 的 突破 ， 使 后 端 可 以 连 
上 实现 上 TB 或 者 几 十 TB 的 容量 ( 通 


很 容易 就 可 以 在 单 台 磁盘 阵列 


的 速度 比 一 条 Ultra 320 总 线 低 , 但 是 多 条 总 线 和 多 个 后 端 通道 


于 是 串 行 传输 ， 两 条 线 一 收 一 发 足够 了 。 接 


也 很 小 ， 如 SFP 


XA gagga 


{S 西 


HE 
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， 只 有 指头 肚 一 样 大 小 ， 可 以 很 方便 地 在 后 端 上 实现 多 个 通道 。 
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IOPS 值 比 并 行 SCSI 总 线 的 架构 显著 增加 。 为 什么 这 么 说 呢 ? 我 们 分 析 一 下 。 高 
IOPS 通常 意味 着 10 SIZE 值 比较 小 的 情况 下 。 如 果 使 用 并 行 SCSI 总 线 ， 由 于 可 接 
入 节点 数量 较 少 ,磁盘 数量 少 ， 每 秒 可 接受 的 10 请 求 就 少 。 而 FC-AL 的 后 端 ， 一 
个 通道 可 以 连接 120 多 个 磁盘 ,可 以 做 成 很 多 Raid Group, 每 秒 可 接受 的 10 请 求 
就 比 并 行 SCSI 多 得 多 。 所 以 ， 虽 然 2Gb 带宽 的 FC 网 络 传输 在 持续 传输 速率 上 比 
不 过 Ultra 320 的 320MB/s 的 速度 ， 但 是 IOPS 却 比 Ultra 320 总 线 高 很 多 。 在 特 
定 条 件 下 , 2Gb 的 FCAL 链 路 会 在 IOPS 和 吞吐 带宽 指标 上 都 超越 Ultra320 的 SCSI 
总 线 。 

现在 的 大 部 分 应 用 都 是 要 求 高 IOPS 的 ， 它 们 产生 的 一 个 10 SIZE 一 般 都 比较 小 ， 
而 且 随机 IO 居多 。 但 是 对 于 视频 编辑 等 领域 ， 无 疑 是 要 求 高 传输 带宽 的 。 面 对 这 
种 应 用 ， 可 以 通过 在 盘 阵 后 端 加 入 多 个 FC-AL 环 来 解决 ， 后 端 带 宽 总 和 等 于 环 数 
乘 以 环 带宽 。 
双 风 辑 端 口 见 余 。 由 于 FC 的 串 行 方式 使 得 数据 针脚 数量 降低 ， 相 同 的 空间 内 很 容 
易 做 成 双 逻 辑 端 口 兄 余 。 双 遇 辑 端口 磁盘 可 以 有 效 保 证 当 其 中 一 个 端口 发 生 故 障 
之 后 ， 磁 盘 可 以 继续 使 用 另外 一 个 备用 端口 接受 10 请 求 。 


完整 的 盘 阵 解决 方案 


933 FC 革命 


FC 在 盘 阵 的 前 端 接口 技术 的 革命 成 功 之 后 ， 又 在 后 端的 接口 技术 上 取得 了 成 功 。FC dX 
术 的 两 种 拓扑 ， 一 个 称霸 前 端 ， 一 个 称霸 后 端 ， 在 磁盘 阵列 领域 发 挥 得 淋 潢 尽 致 


了 此 同时 ， 磁 盘 生 产 广 家 也 在 第 一 时 间 将 FC 协议 中 的 工 端口 和 FC 硬件 芯片 做 到 了 磁 


盘 驱 动 器 上 ， 取 代 了 传统 的 SCSI 端口 。 同 时 ， 根 据 FC 协议 的 规定 编写 了 新 的 Firmware, 
用 于 从 FC 数据 帧 中 提取 SCSI 指令 和 数据 ， 完 成 FC 协议 通信 由 辑 。 


5 并 行 SCSI 磁盘 以 及 其 他 设备 目前 仍 有 比较 广泛 的 应 用 ， 尤 其 是 服务 器 本 地 磁 


fik. 服务 器 本 地 磁盘 一 般 只 安装 操作 系统 ， 一 般 情 况 下 应 用 数据 都 会 放 到 SAN 


Hs 的 磁盘 阵列 上 ， 所 以 对 本 地 磁盘 的 性 能 要 求 不 高 ， 使 用 Ultra 320 磁盘 足 疾 。 另 


外 ， 普 通 独 立 磁 带 机 一 般 也 用 Ultra SCSI 320 作为 其 外 部 接口 。 只 有 在 大 型 磁 
带 库 设备 上 ， 为 了 将 其 接 入 FC SAN 才 会 使 用 FC 接口。 


因为 要 把 每 块 磁盘 都 连接 到 FC-AL 网 络 中 ， 所 以 磁盘 上 要 做 上 一 个 FC 接口 。 由 于 磁盘 


阵列 背 板 需要 连接 众多 的 磁盘 ， 所 以 就 注定 不 可 能 用 柔软 纤细 的 光纤 来 连接 磁盘 到 背 板 ， 
必须 使 用 硬 质 铜 线 ， 让 磁盘 的 FC 接口 用 铜 线 来 接触 盘 阵 背 板 上 的 电路 ， 这 样 才能 做 到 方便 


地 插 拔 。 


9.3.1 


FC 磁盘 接口 结构 


FC 磁盘 的 接口 为 SCA2 形式 的 40 针 插 口 ， 如 图 9.1 所 示 。 
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SCA-2 Fibre Channel 


Dimersion| mm 


H 26.1 max 10165025 1 25 Cl i 

D 6.3540.25 (30) PCB parts side 

N m 508:05 As 
P 


B»: SCA2 接口 规格 
从 图 9.1 中 可 以 看 出 ，FC 磁盘 的 接口 与 Ultra 320 SCSI 磁盘 的 接口 形状 完全 相同 。 但 是 
在 接口 上 的 物理 信号 定义 和 承载 的 上 层 协议 是 完全 不 同 的 ，FC 磁盘 接口 是 承载 的 FC-AL D) 
W, 而 SCSI 磁盘 接口 承载 的 是 并 行 SCSI 总 线 协 议 。 图 9.2 是 FC SCA2 型 接口 的 信号 定义 表 。 


Signal Name 
-EN Bypass Port 1 21 12V 
12V GND (12V Return) 
12V GND (12V Return) 
12V FINT 
-Parallel ESI AN1 
GND GND (12V Retum) 
ACTLED *INZ 
Reserved -N2 
STARTI GND (12V Return) 


START2 +OUT1 


-EN Bypass Port 2 -OUTI 
SELG GND (5V Return) 
SELS *OUTZ 
SEL4 -OUT2 
SEL3 GND (5V Retum) 

FLTLED SEL2 
DEVCTRUZ SELT 
DEVCTRLI SELO 

5V DEVCTRLO 
SV 5V 


图 9.2_FC 接口 SCA2 针脚 信号 定义 表 


9.3.2 一 个 磁盘 同时 连 和 两 个 控制 器 的 Loop 中 


图 9.3 和 图 9.4 分 别 给 出 了 一 串 磁 盘 以 单 Loop 和 双 Loop 接 入 的 情形 。 
从 图 中 可 以 看 出 来 ， 原 来 这 个 物理 接口 中 共 包含 了 两 套 逻 辑 接口 ， 可 以 分 别 接 入 一 个 
FC-AL 的 环 路 中 。 
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FC-AL interface cable 


FC-AL interface cable 


| ee 
lurastar 10x300 | 


ltwastar 10K300 | |unrastar 10K300 


加 |9.3 ” 单 Loop 连接 示意 图 B 9.4 XX Loop 连接 示意 图 


9.3.3 ”共享 环 路 还 是 交换 一 一 SBOD i Hh AERE 


革命 之 后 ,被 并 行 SCSI 总 线 技术 禁 钢 多 年 的 存 
储 系统 终于 解放 了 ， 凶 来 了 全 FC 架构 的 春天 。 

各 个 厂家 分 别 推出 了 自己 的 产品 。 由 于 虽然 一 |g oow 
条 FC-AL 环 最 多 能 接 120 多 块 磁盘 ， 但 是 有 人 测试 。 ao 
过 ， 环 上 节点 的 数量 在 最 大 值 的 二 分 之 一 时 ， 性 能 avo | | 
达到 最 大 化 。 再 增加 节点 数量 ， 性 能 不 升 反 降 。 究 Dne 


Loop Performance 
Single Loop 


其 原因 ， 可 能 是 因为 60 个 左右 的 节点 ， 已 经 达到 bris 
FC-AL 环 的 仲裁 性 能 以 及 带宽 共享 限制 的 极限 了 ， 图 9.5_FC AL 环 的 性 能 曲线 


如 图 9.5 所 示 。 如 果 再 增加 节点 ， 那 么 用 于 仲裁 所 
耗费 的 资源 ， 就 会 影响 性 能 的 发 挥 了 。 这 也 是 仲裁 环 或 者 总 线 的 通病 。 对 于 Fabric 架构 ， 
就 没有 这 种 限制 。 
有 委 汪 节点 数量 和 仲裁 /由 转发 效率 是 一 对 矛盾 系统 ， 只 能 在 二 者 之 间 进 行 折 中 选择 ， 
[$ 在 60 节点 数量 左右 ， 能 达到 最 大 IOPS. RIRN EP ACE, H f E 


名 提供 的 总 容量 ， 那 就 只 能 牺牲 IOPS 性 能 。 同样 ， 每 个 环 上 的 磁盘 数量 也 不 能 
太 少 ， 太 少 的 话 将 达 不 到 最 高 IOPS， 虽 然 此 时 仲裁 和 帧 转发 速度 快 。 


有 没有 可 能 将 后 端的 共享 FC-AL 环 路 架构 ， 改 变 为 交换 式 架构 呢 ?” 改 为 交换 式 架构 是 
可 以 ， 但 是 不 能 改 为 Fabric， 因 为 其 成 本 相对 偏 高 ， 而 且 Fabric 的 一 些 特 性 对 于 后 端 来 说 
是 用 不 到 的 。 

Emulex 公司 发 布 的 InSpeed SOC422 芯片 、PMC-Sierra 公司 的 PM8378 芯片 等 就 是 运 
ff FC-AL 协议 但 物理 架构 是 交换 架构 的 芯片 。 然 而 这 个 交换 架构 绝 非 Fabric， 因 为 其 遵循 
的 上 层 逻 辑 依然 是 FC-AL 逻辑 ， 只 是 在 物理 连接 上 用 点 对 点 交换 架构 ， 替 代 了 “节点 大 串 
联 ” 的 Loop 结构 ， 使 节点 与 节点 之 间 传 输 的 数据 可 以 通过 交换 矩阵 直达 ， 而 不 是 在 环 路 上 
一 跳 一 跳 的 中 继 。 然 而 ， 这 些 芯 片 依然 可 以 用 在 Fabric 交换 机 上 ， 只 要 经 过 一 定 改造 并 且 
在 上 层 运行 对 应 的 Firmware 即 可 。 
其 实 就 是 用 星 型 连接 取代 串联 ， 而 电路 运行 的 逻辑 依然 是 FC-AL 仲裁 过 程 ， 因 为 位 于 


t 1971 
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控制 器 上 的 FC 适配器 依然 会 执行 FC-AL 仲裁 等 逻辑 ， 只 不 过 这 个 仲裁 过 程 变 得 非常 简单 ， 


不 再 需要 所 有 磁盘 参与 ， 而 由 这 块 芯片 来 进行 仲裁 。 此 外 ， 某 节点 同一 时 刻 依 然 只 能 与 一 


个 节点 通信 ， 节 点 感觉 不 到 底层 电路 架构 的 变化 。 由 于 同一 时 刻 还 是 只 能 存在 一 对 节点 进 
行 通 信 ， 所 以 链 路 带宽 依然 是 共享 的 。 因 此 ， 这 种 交换 架构 做 的 并 不 彻底 ， 它 没有 过 渡 到 
包 交 换 或 者 所 有 端口 无 阻塞 全 交换 架构 ， 虽 然 物理 上 已 经 可 以 实现 点 对 点 的 通路 。 


图 9.6 


所 示 的 为 传统 FC-AL 架构 和 半 交 换 式 FC-AL 架构 示意 图 。 我 们 可 以 看 到 左边 的 


拓扑 完全 就 是 磁盘 串 ， 而 右边 则 变 成 了 星 型 的 架构 ， 中 间 由 一 个 ESH 交换 模块 辐射 出 来 。 


3)» 


1 
+ M 
To Next Shelf A To Next Shelf B 


+ + 
To Next Shelf A To Next Shelf B 


9.6 传统 FC AL 环 和 半 交 换 式 FC AL 环 


目前 高 端 盘 阵 后 端 控 制 芯片 几乎 全 部 采用 半 交 换 式 架构 了 。 半 交换 式 架构 有 以 下 好 处 。 
e 控制 节点 与 所 有 其 他 节点 间 都 是 点 对 点 矩阵 直 连 架构 ， 相 对 于 环 路 架构 减 小 了 数 
据 传输 时 的 延迟 。 数 据 帧 不 需要 一 跳 一 跳 的 转发 ， 可 以 直接 从 发 起 者 到 达 目 标 。 


1 


e l 


以 快速 侦 测 和 隔离 某 个 节点 的 故障 而 不 影响 其 他 节点 。 
于 降低 了 链 路 延迟 ， 增 加 了 效率 ， 所 以 在 性 能 可 接受 的 前 提 下 ， 一 条 链 路 可 接 


入 的 节点 数 大 大 增多 。 


e 相 


对 于 纯 环 路 架构 ， 半 交换 架构 提高 了 传输 速度 和 IOPS. 


纯 环 路 架构 的 扩展 柜 中 ， 连 接 硬 盘 的 背 板 只 是 一 个 FC-AL 环 路 连接 装置 ， 而 升级 到 半 


交换 架构 的 


于 从 背 板 单 


硬盘 扩展 柜 的 , 其 连接 硬盘 的 背 板 上 就 有 了 Switch 芯片 (其 实 这 个 芯片 一 般 存 在 
独 接 出 扩展 模块 上 )， 可 以 级 联 多 个 扩展 柜 。 在 逻辑 上 ， 这 些 级 联 扩展 柜 中 的 所 


有 磁盘 属于 一 个 逻辑 上 的 Loop， 前 者 称 为 JBOD(Just Bunch Of Disks)， 后 者 称 为 
SBOD(Switched Bunch Of Disks)。 关 于 这 些 模 块 的 实物 图 ， 请 参照 本 书 第 6 章 的 相关 章节 。 


1. PMC-Sierra 公司 PM 系列 芯片 简介 


下 面 以 
用 方式 。 


在 传统 
到 了 一 起 。 


Bypass Control) 功 能 的 芯片 ， 相 当 于 一 个 Loop 串联 器 ， 并 且 带 有 端口 Bypass 功能 ， 可 防 


止 某 个 端 
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(1) PBC 芯片 。 


PMC-Sierra 公司 的 PM8368 和 PM8378 两 款 芯片 来 详细 解释 一 下 这 种 芯片 的 作 


模式 的 FC-AL 架构 下 ， 所 有 环 路 上 的 节点 (adapter 和 磁盘 ] 都 通过 串联 架构 串 接 
| 对 这 个 架构 的 PM8368 芯片 是 一 款 具 有 18 个 2Gb/s 的 FC 接口 的 带 有 PBC(Port 


故障 引发 的 全 Loop 断 开 。 图 9.7 所 示 为 PM8368 芯片 的 方 框图 。 其 18 个 端 


第 O8 天 翻 地 覆 一 FC 协议 的 巨大 力量 


中 ， 通 常用 16 个 连接 磁盘 ， 其 他 两 个 连接 上 位 芯片 和 (或 ) 下 位 芯片 。 这 种 不 带 有 交换 逻辑 
的 普通 Loop 芯片 ， 业 界 一 般 称 为 PBC 芯片 ， 即 旁 路 控制 芯片 。 


B 9.7 PM8368 芯片 方 框图 


图 9.8 所 示 的 是 将 PM8368 芯片 与 PM8372 芯片 (一 款 只 有 4 个 FC 口 的 PBC 环 路 集 线 
芯片 ) 搭 配 在 一 起 而 实现 的 扩展 柜 级 联 ， 每 扩展 柜 有 16 块 盘 。 引 入 PM8372 芯片 的 原因 是 
将 其 作为 一 个 二 级 级 联 桥 来 减缓 一 级 芯片 [PM8368) 的 端口 耗 尽 问题 。 一 级 芯片 需要 连接 最 
终 便 盘 等 设备 。 
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9.8 ”利用 PM8368 芯片 与 PM8372 芯片 级 联 扩展 柜 
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(2 CTS 芯片 。 
图 9.9 所 示 为 PM8378 芯片 的 方 框图 .此 芯片 为 新 一 代 的 CTS 芯片 ,CTS 为 Cut Through 
Switch 的 简称 。 这 款 芯 片 具 有 交换 逻辑 ，I0 性 能 相对 于 PBC 芯片 大 大 增加 ， 而 延迟 大 大 降 
低 。 这 块 芯片 可 以 接 入 18 个 4Gb/s 的 FC 接口 设备 。 在 上 部 的 模块 中 ,可 以 看 到 三 个 模块 ; 
Arb Mgmt( 仲 裁 管理 模块 )、AL_PA Table(AL-PA 地 址 端口 映射 表 模块 )、Cut Thru Mgmt( 捷 
经 交换 模块 ) 。 


+» Tooo) 
» TOPLO, 
> Toona] 
> TOOR1) 


æ TDONI7] 
> TbOR(LT] 


H29 PM8378 芯片 的 方 框图 


e Arb Mgmt( 仲 裁 管 理 模块 ): 前 面 曾经 说 过 , 一 个 交换 芯片 必须 感知 FCAL 的 仲裁 罗 
辑 , 才能 作为 一 个 中 心 仲裁 器 总 揽 仲 裁 权 , 而 不 用 Loop 上 所 有 的 节点 都 参与 进来 。 
这 个 仲裁 管理 模块 实现 的 就 是 这 个 功能 。FC 适配器 只 要 发 出 仲裁 请 求 ， 芯 片 就 会 
马上 通过 ， 适 配器 立即 就 获得 了 使 用 权 ， 加 快 了 仲裁 的 速度 。 如 果 某 时 刻 多 个 设 
备 都 发 起 仲裁 ， 则 芯片 会 根据 自己 的 逻辑 来 处 理 这 些 请 求 ， 比 如 根据 优先 级 等 。 

© AL PA Table(AL-PA 地 址 端口 映射 表 模 块 ): 传统 的 FCAL 环 路 上 , 数据 从 通信 源 被 
发 送 到 对 应 AL-PA 地 址 的 目的 设备 ， 数 据 帧 需要 一 站 一 站 的 向 下 接力 传送 。 交 换 
芯片 的 另 一 个 作用 就 是 抛弃 这 种 低 效 的 传输 方式 ， 使 数据 可 以 一 站 直达 目的 。 芯 
片 使 用 一 张 映 射 表 来 维护 交换 逻辑 , 这 就 和 以 太 网 交换 机 维护 一 张 MAC- 端 口 表 一 
样 。FCAL 交换 芯片 每 收 到 一 帧 数据 ， 就 会 根据 这 个 AL PA Table 来 查找 帧 中 的 
AL-PA 地 址 所 对 应 的 芯片 针脚 是 哪 一 个 ， 然 后 直接 将 此 帧 转发 到 对 应 的 针脚 上 ， 
也 就 传送 到 了 针脚 所 连接 的 磁盘 FC 接口 上 。 

© Cut Thru Mgmt( 捷 径 交换 模块 ]: cos 块 其 实 就 是 执行 交换 过 程 的 。 每 当 有 帧 需 
要 交换 , 这 个 模块 就 会 发 送 一 个 信号 到 图 9.9 中 部 的 那个 矩阵 上 , 改变 矩阵 当前 的 
通路 布局 ， 从 而 将 数据 从 源 传 向 目 n 
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图 9.10 是 利用 PM8378 芯片 实现 


第 O 章 ， 天翻地覆-_FC 协议 的 巨大 力量 


的 磁盘 扩展 柜 级 联 示意 图 。18 端口 中 有 16 个 连接 了 
磁盘 ， 另 外 两 个 分 别 连接 了 上 位 和 下 位 芯片 。 
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图 9.10_ 扩 展柜 级 联 示 意图 


还 可 以 将 PBC 芯片 和 CTS 芯片 组 合 在 


本 ， 使 用 了 18 Hif] PBC 芯片 来 连接 磁盘 ， 然 


2125 or 
) 425Goits 


-起 来 级 联 扩展 柜 。 如 图 9.11 所 示 , 为 了 降低 成 
后 用 一 个 4 端口 的 CTS 芯片 来 做 为 二 级 级 联 


桥 。 在 这 种 情况 下 ， 每 个 扩展 柜 中 的 磁盘 之 间 为 普通 Loop 串联 , 但 是 扩展 柜 与 扩展 柜 之 间 


却 是 交换 拓扑 ， 这 样 就 相当 于 把 整个 Loop 上 的 节点 划分 成 域 ， 每 个 扩 


域 (冲突 域 ]。 
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[&l9.11 PBC 5 CTS 的 组 合 


展柜 就 是 一 个 共享 


+ 
Additional 
Disk Racks 
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如 图 9.12 所 示 ， 这 种 方式 使 用 了 高 成 本 的 CTS 芯片 组 成 了 全 交换 架构 的 Loop。 整 个 
Loop 上 的 节点 之 间 都 形成 了 交换 架构 , 但 这 个 交换 架构 并 不 是 无 阻塞 多 路 同时 交换 的 架构 ， 
依然 是 同时 只 允许 两 点 间 通 信 的 上 层 FC-AL 逻辑 的 架构 。 


17 Disk Shelf for 
Colorado Design Center Storage 
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图 9.12_ 全 cTS 架构 
SBOD 控制 模块 上 的 芯片 不 只 有 PBC 或 CTS, 还 包括 其 他 各 种 功能 的 芯片 , 在 图 中 并 没 
有 给 出 ， 在 下 面 的 内 容 中 会 一 一 介绍 。 
2. SCSI Enclosure Service 简介 


SCSI Enclosure Service 简称 为 SES， 从 字面 上 理解 就 是 SCSI 协议 中 用 于 查询 磁盘 扩展 
柜 (Enclosure) 各 种 状态 的 一 种 服务 (协议 )。 扩 展柜 上 有 很 多 组 件 需要 被 监控 , 比如 电源 模块 、 
风 遍 散热 模块 、 各 种 指示 灯 、 温 度 传感器 等 。 这 些 组 件 都 通过 某 种 总 线 (比如 I2C、GPIO) 
方式 连接 到 某 个 芯片 ， 然 后 这 块 芯片 再 通过 I2C 等 连接 到 单片机 或 CPU。 或 者 通过 外 部 传 
感 器 直接 连接 到 高 集成 度 的 单一 芯片 上 。SCSI 客户 端 程序 (也 就 是 SCSI Initiator 端 程序 ] 通 
过 发 送 SES 协议 规定 的 各 种 指令 来 查询 Enclosure 上 各 个 组 件 的 状态 信息 。 

SES 服务 模块 就 是 指 扩 展柜 上 的 CPU， 其 中 运行 着 处 理 SES 的 代码 。 这 个 CPU 可 以 是 
主 控 CPU， 也 可 以 是 独立 的 芯片 。 存 储 设备 机 头 主 控制 器 有 两 种 方式 将 SES 指令 传输 给 这 
个 CPU， 如 下 所 述 。 

(1) 独立 SES 处 理 模块 

如 图 9.13 所 示 , 独立 的 SES 服务 模块 独占 一 个 LUN ID( 十 六 进 制 的 0D), 可 以 直接 寻 址 。 
也 就 是 说 ，SES 服务 模块 就 相当 于 一 个 FCAL Loop 上 的 ID， 机 头 直 接 将 SES 指令 传输 给 这 
个 ID。 对 应 电路 层面 ， 主 交换 芯片 收 到 目标 为 此 ID 的 帧 ， 便 会 直接 转发 给 这 个 ID 所 连接 
的 设备 ， 这 里 就 是 SES 处 理 芯片 。 

(2) 附属 的 SES 服务 模块 

如 图 9.14 所 示 ， 附 属 的 SES 服务 模块 往往 会 利用 一 个 已 经 存在 的 设备 的 地 址 来 与 自己 
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3k 欧 理 接口 上 ， 这 个 设备 一 般 会 有 一 条 旁 路 来 连接 到 SES 服务 模块 ， 比 如 目前 FC Bf 
ne 的 SCA2 接口 中 就 有 对 应 的 ESI(Enclosure Service Interface) 接 口 来 连接 到 SES 
服务 模块 上 (CPU)。 存储 设备 的 主 控 机 头 首先 将 一 条 SES 可 用 性 探 询 指令 发 送 到 这 个 已 经 被 
磁盘 占用 的 ID， 如 果 这 个 ID 对 应 的 槽 位 上 有 连接 设备 ， 且 该 设备 支持 转发 SES 帧 ， 则 该 设 
备 会 返回 一 个 确认 帧 ， 帧 中 携带 有 特定 Page 的 值 ， 主 控 机 头 收 到 之 后 便 会 分 析出 这 个 设备 
是 否 支持 SES 转发 。 机 头 随 后 发 出 纯 SES 指令 ， 磁 盘 收 到 之 后 ， 会 通过 ESI 接口 将 SES 帧 
发 送 给 ESI 接口 的 对 端 , 当然 就 是 SES 处 理 芯片 了 ,芯片 收 到 SES 指令 之 后 , 便 通 过 12C( 或 
者 其 他 类 型 总 线 ] 总 线 去 查询 外 部 传感器 的 信息 ， 然 后 封装 成 SES 返回 帧 ， 通 过 ESI 接口 发 
送 至 磁极， 磁盘 再 转发 给 主 控 机 头 。 磁 盘 的 Firmware 必须 支持 转发 SES 帧 。 


Logical unit with peripheral 
device type of 0Dh (SES) d ih | 


(the interfaces to the objects are 
outside the scope of this standard 
(eg.. GPIOs, serial buses)) 


ESI interface in Seien 


(ihe interfaces 
(e.g. a standalone microcontroller) outside the scope of this standard 
(e.g.. GPIOs, serial buses) 


9.14 ”附属 的 SES 服务 模块 
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3. SBOD 上 的 CPU 


(1) PMC 一 Sierra 公司 的 PM8393 芯片 。 


可 以 将 其 连接 到 上 文 所 


Controller， 简 称 SMC. [9.15 为 其 方 框图 。 
图 9.16 是 PM8393 芯片 充当 扩 


接 磁 盘 ， 再 加 上 其 他 一 些 芯片 共同 组 成 的 


展柜 总 控 CPU， 


一 个 完 : 


DICE 


这 是 一 款 基于 MIPS32 架构 的 单片机 , 内 建 有 128KB 的 RAM, 外 部 时 钟 为 106.25 MHz, 
属 的 PM8378 Switch 芯片 中 。 这 款 芯 


h。 这 款 芯 片 又 名 Sotrage Management 


用 PM8378/PM8379 充当 交换 芯片 来 连 
的 扩展 柜 控制 模块 架构 。 
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图 9.16 用 PM8393 做 为 扩展 柜 总 控 CPU 


(2) Qlogic 公司 的 GEM359 芯片 。 
9.19 所 示 为 这 款 芯片 的 方 框图 。 


图 9.17、 图 9.18、 
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4. SBOD 上 的 ROM 和 RAM 


SBOD 扩展 柜上 的 CPU 需要 执行 Firmware 中 的 代码 来 完成 一 系列 的 动作 , 如 SES 服务 
等 。 所 以 ，Firmware 编写 的 质量 直接 决定 了 扩展 柜 是 否 能 向 机 头 上 的 控制 器 稳定 和 迅速 的 
报告 扩展 柜上 所 发 生 的 一 切 事件 。 

Firmware 一 般 存 在 于 扩展 柜 控制 模块 上 的 ROM 芯片 (如 Flash 芯片 ) 中 , 并 且 可 以 随时 
将 升级 之 后 的 Firmware 通过 FC 接口 直接 写 入 芯片 。 这 种 直接 通过 实际 数据 链 路 来 升级 系 
统 控 制 数据 的 方式 叫做 in-band 升级 , 即 “ 带 内 升级 ”。 如果 用 一 种 单独 的 通道 来 访问 Flash 
芯片 并 做 升级 动作 就 叫做 out-band 升级 ， 也 就 是 带 外 升级 。 

SBOD 控制 模块 上 一 般 都 有 外 置 的 RAM 芯片 ， 有 些 内 置 了 RAM 的 单片机 除外 。 

5. PATA、SATA 和 SAS 磁盘 怎么 办 

PATA(IDE) 盘 和 SATA 盘 相 对 于 FC 盘 和 SAS 盘 来 说 ， 成 本 降低 了 很 多 ， 且 可 以 实现 高 

容量 ,现在 已 经 有 了 1TB 的 SATA 磁盘 。 对 于 一 些 对 10 性 能 要 求 不 高 的 环境 来 说 ,使 用 SATA 

BXRA 是 很 合适 的 。 但 是 面 对 不 同 的 接口 ， 不 同 的 指令 ， 单 独 对 这 些 磁 盘 实 现 一 套 盘 柜 和 
控制 器 体系 实在 是 不 方便 。 且 现在 企业 都 要 求 高 度 整 合 ， 统 一 分 配 ， 方 便 管 理 。 根 据 这 个 
需求 ， 各 种 适配器 和 转换 逻辑 出 现 了 。 图 9.20 所 示 为 一 个 SATA-SCA2 接口 转换 器 。SATA 
磁盘 只 要 接 上 这 块 PCB， 就 可 以 从 物理 上 融入 FC 盘 柜 中 ， 也 就 变 成 了 所 谓 的 FATA 盘 。 除 
此 之 外 ， 还 有 很 多 其 他 类 型 的 转 接 电路 ， 比 如 PATA-SCA2. SAS-SCA2 等 。 

物理 上 融入 了 ， 在 逻辑 上 也 需要 进行 转换 。SATA 磁盘 使 用 ATA 指令 系统 ，FC 和 SAS 
磁盘 使 用 SCSI 指令 系统 ， 二 者 不 兼容 。 所 以 需要 有 一 个 中 央 芯 片 负责 在 两 种 逻辑 之 间 互 相 
转换 。 

Sierra Logic 的 SR1216 芯片 是 一 款 高 集成 度 的 芯片 。 这 款 芯 片 将 ATA-SCSI 转换 逻辑 以 
及 两 个 MicroProcessor 做 到 了 一 块 单一 的 芯片 中 。MicroProcessor 就 是 微型 CPU， 用 来 运 
行 外 部 Flash 芯片 中 的 Firmware， 从 而 实现 SES 等 扩展 柜 管理 程序 。 

图 9.21 所 示 为 SR1216 实物 图 。 


Uwe um 


图 8.20 _SATA-SCA2 转 接 电路 板 20 SATA-SCA2 图 8.20 _SATA-SCA2 转 接 电路 板 9.21. SR1216 图 9.21 _SR1216 芯片 实物 图 


图 9.22 和 图 9.23 所 示 为 用 SR1216 来 充当 SATA 桥 和 总 控 CPU 所 形成 的 扩展 柜 控制 模 
架构 图 ，PBC 表示 FC Loop 旁 路 控制 芯片 ，SES Processor 表示 用 来 收集 外 部 传感器 的 专 
芯 
另外 ，PMC-Sierra 公司 也 有 多 款 多 端口 SATA 复 用 芯片 ， 不 过 有 一 些 需 要 搭配 额外 的 
ATA-SCSI 转换 桥 芯片 ， 图 9.24 为 其 示意 图 。 
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环 路 。 图 9.26 是 一 个 典型 的 双 控制 器 ， 且 前 后 端 均 为 FC 架构 


图 9.25 NetApp 公司 FAS6070 磁盘 阵列 图 9.26 全 FC 架构 磁盘 阵列 


LE 
K, 


人 磁盘。 


展柜 。 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


9.4 中 高 端 磁盘 阵列 整体 架构 简 析 


图 9.25 所 示 为 NetApp 的 FAS6000 系列 实物 图 ， 其 中 间 部 分 为 两 个 机 头 ， 其 余 均 为 扩 


中 高 端 盘 阵 一 般 都 会 配 有 两 个 控制 器 ， 不 但 可 以 做 为 元 余 ， 而 且 可 以 分 担 后 端 不 同 的 
的 磁盘 阵列 拓扑 示意 图 。 


mn 


d 


图 9.26 中 所 示 的 机 头 (控制 器 所 在 的 机 柜 ) 中 不 包含 磁盘 。 实 际 产品 中 ， 有 些 由 于 控制 
:= 板 比较 小 ， 机 头 本 身 也 可 以 放 入 若干 磁盘 。 但 是 有 些 高 端 产品 的 控制 器 主板 做 得 比较 
10 适配器 比较 多 ， 再 加 上 电源 模块 和 风扇 模块 ， 造 成 机 头 内 部 空间 不 足以 放下 多 余 的 


如 图 9.26 所 示 ， 每 个 控制 器 上 有 4 个 前 端 FC 接口 和 4 个 后 端 FC 接口 。 每 个 后 端 FC 


接 


可 以 连接 到 一 个 FC-AL 环 路 。 为 了 元 余 ， 两 个 控制 器 的 后 端 FC 端口 必须 连接 到 相同 的 


m 


REE, MXE AEn UEH FC-AL 的 Loop 总 容量 为 4 个 。 


RK, 磁盘 阵列 控制 器 本 身 就 是 一 个 现代 计算 机 系统 ,， 它 由 10 设备、 存储 器 、 运 算 器 、 


软件 组 成 。 
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e ORE: 包括 后 端 FC 适配器 、 前 端 FC 适配器 、 管 理 用 COM 口 、 以 太 网 口 、LCD 
液晶 显示 板 、 指 示 灯 以 及 各 种 适 配 卡 。 控 制 器 从 后 端的 磁盘 上 提取 数据 ， 经 过 虚 
拟 化 之 后 ， 发 送 给 前 端的 主机 。 控 制 器 从 前 端的 FC 端口 处 接收 主机 发 送 的 指令 和 
数据 ， 经 过 去 虚拟 化 运算 之 后 ， 通 过 后 端 FC 端口 写 入 扩展 柜 中 的 磁盘 。 这 就 是 控 

制 器 工作 的 基本 原理 。 

e 运算 器 ， 就 是 完成 上 述 虚 拟 化 和 去 虚拟 化 过 程 所 需要 的 运算 单元 。 控 制 器 可 以 选 

通用 CPU 来 作为 运算 器 , 也 可 以 选用 或 辅 以 专用 ASIC 芯片 来 完成 运算 。 随 着 现 

代 盘 阵 系 统 虚 拟 化 功能 的 日 益 强 大 ， 软 件 逻 辑 越发 复杂 起 来 ， 通 用 CPU 加 软件 就 

成 了 普遍 使 用 的 组 合 。 至 于 ASIC 等 硬件 只 是 作为 一 种 10 设备 而 存在 ， 辅 助 CPU 

进行 专用 逻辑 的 运算 ， 并 把 结果 返回 给 CPU， 目 的 是 将 CPU 从 这 种 专用 运算 中 解 

脱出 来 。 


Es 


可 以 


右边 
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e 存储 器 : 包括 高 速 缓存 存储 器 和 外 部 低速 永久 存储 器 。 现 代 中 高 端 盘 阵 几 乎 都 是 
使 用 带 ECC 错误 纠正 的 DDR SDRAM 作为 高 速 缓存 。 这 个 高 速 缓存 既 充 当 虚 拟 化 


软件 运行 时 的 空间 ， 又 充当 两 端 数据 流 的 缓存 空间 。 


e ”软件 ， 由 于 虚拟 化 引擎 越 来 越 强 大 ， 新 的 功能 和 概念 层出不穷 ， 单 纯 使 用 精简 的 


内 核 和 精简 的 代码 已 经 远 远 不 能 满足 功能 需求 和 开发 难 易 度 需 求 。 所 以 目 
磁盘 阵列 控制 器 都 是 基于 某 种 操作 系统 内 核 的, 比如 Linux, VxWorks, Win 


条 很 多 


dows、 


UNIX 等 。 操 作 系统 不 但 提供 了 硬件 管理 层 ， 还 提供 了 方便 的 API。 这 些 层 次 的 划 


分 使 开发 人 员 只 需要 专心 设计 上 层 虚 拟 化 程序 而 不 是 全 盘 兼 顾 。 盘 阵 的 操 


作 系统 


和 应 用 程序 可 以 被 存放 在 后 端的 磁盘 上 ， 也 可 以 用 专门 的 外 部 存储 设备 存放 。 


NetApp 的 FAS 系列 产品 就 是 用 一 块 Flash 卡 来 存放 其 操作 系统 和 应 用 程序 


图 9.26 的 下 方 是 一 个 扩展 柜 , 其 中 插 了 16 块 FC 接口 的 磁盘 。 左 边 控制 器 的 第 一 
接口 通过 光纤 连接 到 了 扩展 柜 左 边 的 接口 (一 般 为 SFP 接口 )， 线 路 将 扩 


n 


个 FC 


展柜 内 所 有 16 Den 


CE. 
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连接 到 了 背 板 上 。 


提 


示 复杂 起 来 。SBOD 技术 需要 一 系列 智能 芯片 。 柜 子 中 的 磁盘 首先 要 插 到 一 个 


Hc 然 说 通常 是 一 个 JBOD， 但 是 随 着 SBOD 技术 的 普及 ， 扩 展柜 也 变 


这 一 系列 的 芯片 。 通 常 都 是 将 这 些 功 能 芯片 单独 做 到 一 个 模块 上 ， 然 后 将 这 


接 起 来 形成 了 一 个 Loop。 然 而 ，16 块 磁盘 是 远 远 不 够 的 ， 怎 么 在 这 个 Loop 中 接 入 更 
多 磁盘 呢 ? 肯定 是 要 增加 扩展 柜 的 数量 ， 还 必须 将 多 个 扩展 柜 中 的 磁盘 都 串 接 到 一 个 Loop 
所 以 在 每 个 扩展 柜 的 左边 接口 板 上 都 有 两 个 SFP 光纤 接口 ， 一 个 进 ， 一 个 出 。 这 样 就 
凶 多 个 扩展 柜 中 的 磁盘 都 串 在 一 起 形成 一 个 Loop， 接 入 控制 器 的 一 个 后 端 FC 接口 。 

六 展柜 右边 的 接口 板 与 左边 构造 和 连接 方法 相同 ， 只 不 过 右边 的 接口 需要 连接 到 机 头 
的 控制 器 上 ， 形 成 见 余 。 这 样 一 旦 左边 的 控制 器 故障 ， 右 边 控制 器 可 以 立即 接管 所 有 


得 
背 


板 上 ， 背 板 上 提供 了 一 系列 的 SCA2 型 母 楷 。 在 背 板 上 一 定 有 某 种 接口 来 连接 


模块 与 背 板 对 接 ， 进 而 与 磁盘 接口 对 接 通信 。 这 样 ， 如 果 为 了 实现 更 多 的 功能 ， 


可 以 只 通过 更 换 模块 来 升级 ， 而 不 用 大 动 干 呈 更 换 整 个 背 板 。 所 以 目前 几乎 


所 


有 厂家 的 盘 阵 扩展 柜 都 采用 这 种 设计 ， 在 柜子 后 面 可 以 看 到 两 个 互 为 宛 余 的 模 


块 ， 它 们 都 连接 到 了 同一 个 磁盘 背 板 上 。 


1 IBM DS4800 控制 器 架构 简 析 


在 图 9.27 中 可 以 看 到 两 个 供电 模块 、 两 个 控制 器 模块 和 一 个 背 板 模块 ， 两 个 控制 器 都 


图 9.28 是 IBM DS4800 磁盘 阵列 的 双 控 制 器 机 头 的 背面 接口 图 。 


图 中 的 Drive-side connections 代表 这 些 FC 端口 是 用 来 连接 磁盘 扩展 柜 的 ，Host-side 
connections 代表 这 些 FC 端口 是 用 作 前 端 主机 的 。 可 以 看 到 上 下 两 个 控制 器 是 互 为 元 余 的 ， 
它们 同时 插 在 机 头 的 背 板 上 ， 之 间 有 专门 的 链 路 进行 通信 以 交互 各 自 的 信息 。 


图 9.29 是 用 这 人 台 机 头 挂 接 16 个 扩展 柜 ， 并 且 全 元 余 的 架构 图 。 


我 们 可 以 看 到 ， 每 个 控制 器 的 后 端 接口 都 连接 了 4 个 扩展 柜 ， 这 4 个 扩展 柜 中 的 磁盘 


1 2091 


大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


同时 位 于 主 控制 器 的 一 个 Loop 和 备用 控制 的 一 个 Loop 上 。 


Controller Support Modules 
(Fans, power supplies) 


4 Drive-side connections. 


2 Ethemet connections. 


[| Conder) 


(Contalle B) 


jule 
iidplane) 


[]o27 ps4800 机 头 三 维 示 意图 [Eo28 ps4800 机 头 后 视图 

一 旦 机 头 上 的 主 控制 器 发 生 故 障 ， 备 份 控制 器 可 以 立即 接管 所 有 工作 ， 继 续 执行 10 请 
求 。 因 为 备份 控制 器 与 主 控制 器 一 样 与 所 有 扩展 柜 都 有 连接 。 
司 样 ， 一 旦 某 个 扩展 柜 发 生 故 障 ， 比 如 电源 故障 ， 整 个 环 路 从 一 方 来 看 ， 是 被 断 开 的 。 
但 是 ， 其 他 扩展 柜 依然 可 以 被 访问 到 ， 办 法 就 是 通过 机 头 上 的 备用 控制 器 从 尾部 访问 被 故 
障 扩展 柜 隔 断 的 底下 的 扩展 柜 ， 同 时 主 控制 器 从 头 部 访问 上 面 的 控制 器 。 
图 9.30 所 示 为 每 个 扩展 柜 组 中 都 有 一 个 扩展 柜 故 障 。 但 是 剩余 的 扩展 柜 依 然 可 以 继续 
使 用 ， 方 法 就 是 让 主 控制 器 和 备用 控制 器 同时 工作 。 


Loop Pair 1 Loop Pair 2 Loop Pair 3 Vno Pai Loop Pair 2 Vend | 
圆 9.29_DS4500 连接 16 个 扩展 柜 图 9.30_ 扩 展柜 整 柜 故障 时 的 拓扑 


可 以 发 现 ， 如 果 某 个 Raid Group 的 磁盘 全 部 在 一 个 扩展 柜 中 ， 那 么 一 旦 这 个 扩展 柜 故 
障 ， 这 个 Raid Group 将 不 可 用 。 所 以 控制 器 为 了 获得 高 度 可 靠 性 ， 一 般 会 尽量 跨 扩 展柜 做 
Raid Group， 即 一 个 Raid Group 中 的 所 有 磁盘 各 属于 不 同 的 扩展 柜 。 这 样 ， 即 使 一 个 扩展 
柜 失 效 ， 那 么 对 于 一 个 Raid Group 来 说 ， 只 是 失去 一 块 磁盘 而 不 是 全 部 失效 ，Raid Group 
还 可 以 继续 工作 。 目 前 几乎 所 有 中 高 端 盘 阵 都 提供 这 种 支持 。 

图 9.31 是 DS4800 盘 阵 控制 器 内 部 简单 架构 图 。 

从 图 中 可 以 看 到 如 下 部 件 : FC Chip、Loop Switch、Channel 及 Interconnect Module。 
FC Chip 是 处 理 FC 协议 逻辑 的 主要 芯片 ， 全 部 的 FC 逻辑 都 在 此 芯片 内 实现 。Loop Switch 
在 这 里 可 以 推断 出 其 就 是 上 文 所 述 的 PBC 一 类 的 芯片 。 其 后 端 连 接 两 个 FC 接口 , 前 端 分 别 
连接 位 于 两 个 控制 器 上 的 两 块 FC Chip， 这 样 做 的 目的 是 为 了 充分 匈 余 。Channel 的 意思 就 
是 指 连接 到 一 个 Loop Switch 上 的 两 个 FC 端口 ， 两 个 端口 组 成 一 个 Channel， 没 有 实际 物 
理 意义 。Interconnect Module 其 实 是 一 个 背 板 ， 用 于 控制 器 之 间 的 通信 。 
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mid-plane 


controller 


图 9.31 _Ds4800 机 头 控制 器 简单 架构 图 
和 | 推论 : 假设 某 一 时 刻 ， 左 边 控制 器 下 方 那个 FC Chip 失效 ， 则 控制 器 A 的 4 号 


FC 接口 与 这 个 Chip 的 通路 便 会 断 掉 。 此 时 只 能 通过 控制 器 BB 的 1 号 FC 接口 
访问 最 左边 的 4 个 扩展 柜 。 查 看 一 下 连 线 ， 可 以 发 现 控制 器 BB 的 1 号 FC 口 其 
实 是 通过 Interconnect Module 连接 到 了 控制 器 A 的 上 面 的 FC Chip. 
所 以 ， 最 终 数据 是 通过 控制 器 B 右边 的 Loop Switch 流向 Interconnec Module, 
然后 流 到 控制 器 A 上 面 的 FC Chip。 也 就 是 说 ， 最 终 达到 了 同一 个 控制 器 内 部 
两 个 FC Chip 之 间 的 宛 余 备份 。 而 此 时 对 前 端 主 机 来 说 并 没有 影响 ， 主 机 还 是 
连接 控制 器 A 来 读 写 数据 。 同样 ， 如 果 控 制 器 A 上 的 某 个 Loop Switch 失效 ， 
则 数据 全 部 通过 控制 器 B 对 应 的 Loop Switch 流向 Interconnect Module, 最 后 还 
是 流 回 到 控制 器 A， 对 主机 并 没有 影响 。 
但 是 , 如 果 同 一 个 控制 器 上 的 两 个 FC Chip 或 两 个 Loop Switch 都 失效 了 , 甚至 
整个 控制 器 故障 了 ,那么 所 有 IO 访问 就 都 要 转移 到 另外 的 一 个 控制 器 上 .此 时 ， 
对 主机 端 就 会 产生 影响 ， 需 要 多 路 径 软 件 和 盘 阵 端 配合 参与 故障 切换 的 动作 。 


实际 上 ，DS4800 的 控制 器 不 一 定 是 上 述 的 切换 模式 。 但 是 在 理论 上 ， 所 有 产品 的 设计 
都 应 该 尽量 不 切换 控制 器 ， 因 为 切换 控制 器 会 对 主机 端 造成 影响 。 
图 9.32 为 DS4800 扩展 柜 连接 示意 图 。 


9.32. DS4800 扩展 柜 连接 通路 示意 图 
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图 9.33 是 DS4800 一 个 控制 器 的 内 部 详细 架构 图 。 
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9.33  DS4800 控制 器 详细 架构 图 


每 个 控制 器 2、4、8GB 数据 缓存 RAM 


64bit/133MHz 一 一 1GB/s 带宽 的 PCIX 总 线 


2.4 GHz Xeon processor 运行 Vxworks 实时 操作 系统 

数据 专用 

每 个 控制 器 512MB RAM 系统 缓存 一 一 操作 系统 运行 内 存 
XOR ASIC Engine 专用 芯片 ， 硬 件 RAID 运算 引擎 


9.4.2 NetApp FAS 系列 磁盘 阵列 控制 器 简 林 


1. FAS2050 磁盘 阵列 
图 9.34 为 FAS2050 磁盘 阵列 控制 器 的 后 视图 。 


从 图 9.34 中 可 以 看 到 上 下 两 个 控制 器 ， 每 个 控制 器 各 有 两 个 FC 接口 。 


2. FAS3050 磁盘 阵列 
图 9.35 为 FAS3050 磁盘 阵列 控制 器 后 视图 。 


B 9.34  FAS2050 控制 器 实物 后 视图 9.35 ”FAS3050 控制 器 实物 后 视图 


图 9.35 为 单个 FAS3050 的 控制 器 机 头 后 视图 。 图 中 只 是 一 个 控制 器 , 如果 要 达到 完全 
KR, 可 以 用 两 台 控制 器 形成 Cluster 结构 。 FAS3050 有 4 个 板 载 FC 接口 , 可 以 通过 插 PCIX 
接口 的 扩展 卡 来 扩充 FC 接口 的 数目 。 每 个 控制 器 提供 4 个 扩展 卡 槽 位 ， 可 以 插 接 FC 卡 、 


以 太 网 卡 、TOE 卡 和 ISCSI 卡 等 扩展 卡 。 


NetApp 的 FAS 产品 ， 从 FAS3000 系列 开始 ， 


1 于 处 理 功能 增强 ， 扩 展 槽 位 增多 ， 所 


以 一 个 控制 器 就 占 满 一 个 机 头 的 空间 。 两 台 控制 器 之 
网 络 来 形成 Cluster. 
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3. FAS6070 磁盘 阵列 

图 9.36 为 FAS6070 磁盘 阵列 控制 器 后 视图 。 

FAS6070 是 NetApp 公司 比较 高 端的 设备 ， 
内 部 后 端 总 线 的 总 理论 带宽 可 达 32GB/s。 有 9 个 
扩展 槽 位 ， 可 以 插 接 扩展 FC 适配器 以 便 连接 更 多 
的 扩展 柜 ， 或 TOE 卡 、 以 太 网 卡 等 其 他 适配器 。 

4. DS14MK2FC 磁盘 扩展 柜 

图 9.37 所 示 为 DS14MK2FC 磁盘 扩展 柜 的 前 视图 。 

图 9.38 所 示 为 DS14MK2FC 磁盘 扩展 柜 的 后 视图 。 

图 9.37 和 图 9.38 所 示 的 是 用 于 连接 FAS 系列 控制 器 的 磁盘 扩展 柜 ， 每 个 柜子 可 以 插 
14 块 FC 接口 的 磁盘 。 从 后 视图 中 可 以 看 出 其 与 FAS2050 控制 器 的 拓扑 比较 像 , 不 要 搞 混 。 
前 文 说 过 ， 现 代 磁 盘 扩 展柜 都 是 用 双 模块 设计 ， 模 块 中 有 半 交 换 SBOD 芯片 。 盘 柜 中 所 有 
的 磁盘 利用 其 SCA2 接口 连接 到 背 板 上 , 这 个 物理 接口 中 所 包含 的 两 个 逻辑 接口 各 通过 电路 
连接 到 一 个 扩展 柜 控 制 模块 上 ， 形 成 双 Loop LR. 


图 9.36 FAS6070 单个 控制 器 实物 后 视图 


加 8.37 DS14MK2FC 磁盘 扩展 柜 前 视图 图 3s DS14MK2FC 磁盘 扩展 柜 后 视图 


9.4.3 IBM DS8000 简介 


DS8000 系列 利用 两 台 P 系列 主机 充当 控制 器 。 上 文中 说 过 ， 盘 阵 控制 器 架构 本 质 上 与 
主机 架构 无 异 ，DS8000 就 是 这 样 一 个 例证 。 图 9.39 和 图 9.40 为 DS8000 实物 图 。 


一 一 多 达 128 个 磁盘 


HMC 


IBM eServer pSeries 
POWER5 服 务 器 


VO 抽 尾 


Bg 9.39 DS8000 主机 架 
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— 多 达 640 ^E 
Ep 


N 


Vo 抽 居 


[E940 DS8000 盘 阵 主机 架 和 扩展 机 架 


IBM DS8000 磁盘 阵列 是 IBM 磁盘 阵列 产品 线 中 的 最 高 端 产品 。 它 利用 两 台 IBM 的 P 
系列 服务 器 作为 控制 器 运行 AX 操作 系统 ， 操 作 系 统 之 上 运行 了 DS8000 的 存储 虚拟 化 引 


擎 和 管理 软件 


o 


944 富士 通 ETERNUS6000 磁盘 阵列 控制 器 结构 简 析 


图 9.41 为 富士 通 ETERNUS6000 机 柜 布 局 示意 图 。 
与 NetApp FAS6070 和 IBM DS8000 系列 一 样 , 高 端 磁盘 阵列 系统 由 于 需要 提供 极 高 的 


存储 容量 ， 只 
入 扩展 机 架 中 


连接 几 个 磁盘 扩展 柜 已 经 无 法 满足 要 求 。 所 以 就 需要 将 更 多 的 磁盘 扩展 柜 装 
， 然 后 统一 联 入 控制 器 或 者 串联 到 其 他 机 架 。 


图 9.42 为 ETERNUS6000 控制 器 架构 示意 图 。 


到 9.41 


ETERNUS6000 整体 架构 简单 拓扑 如 图 9.42 所 示 。 


To Servers 


A 


Enclosure 
(DE) 


insopou3 eAug OL 


Controller 
Enclosure 


sonsoloua onug OL 


To Servers 


ETERNUS6000 机 架 示 意图 B 9.42 ETERNUS6000 控制 器 架构 示意 图 


e CM(Control Module) 为 控制 器 模块 。CM 是 整个 磁盘 阵列 的 计算 中 心 ， 每 个 CM 包 


AM 


ri 
ff. 
CM, 
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个 2.8GHz 的 CPU 和 最 大 16GB 的 RAM. RAM 既 作为 盘 阵 本 身 软件 的 运行 内 
又 作为 盘 阵 数据 缓存 (图 中 所 示 的 Cache)。 整 个 盘 阵 系统 最 多 可 以 安装 4 个 
于 每 个 控制 器 柜上 只 包含 一 个 CM, 所 以 整个 系统 最 多 可 以 连接 4 个 Controller 
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Enclosure. 

e ”RT(Router) 为 路 由 器 。RT 模块 相当 于 普通 服务 器 架构 中 的 南 桥 控制 器 (10 控制 器 )。 
不 同 的 是 这 里 的 RT 是 一 个 全 局 桥 ， 它 可 以 桥接 整个 系统 中 的 所 有 CPU、RAM 和 
外 设 (FC 接口 卡 ), 使 所 有 部 件 之 间 实 现 高 速 通信 。 每 个 系统 最 大 可 以 接 入 4 个 RT。 

e  DA(Driver Adapter) 为 磁盘 适 配 板 。 每 个 适 配 板 上 接 有 4 个 FC-AL 接口 ,用 于 接 入 
FC-AL 的 Loop. DA 实际 上 就 是 盘 阵 的 后 端 接 入 点 。 每 个 RT 可 以 接 入 2 个 DA, 
所 以 每 个 系统 最 多 接 入 8 个 DA， 从 而 可 以 挂 接 32 条 Loop。 但 为 了 宛 余 ， 每 个 
Loop 需要 同时 连接 2 个 DA， 所 以 实际 可 用 Loop 减 半 ， 为 16 Loops. 

e  CA(Channel Adapter) 为 通道 适 配 板 。CA 实际 上 就 是 前 端 FC 接口 适 配 板 ， 每 个 板 
子 上 包含 4 个 FC N 类 型 端口 ， 用 于 接 入 FC 交换 设备 或 者 直接 连接 主机 服务 器 的 
FC 适 配 卡 。 每 个 RT 最 多 接 入 4 个 CA， 所 以 整个 系统 最 多 可 以 接 入 16 个 CA， 最 
多 提供 64 个 FC 协议 N 类 型 前 端 接口 。 

1. SBOD 

扩展 柜 同样 采用 了 双 模 块 板 设计 , 可 以 保证 两 条 路 径 到 达 同 一 块 磁盘 。 图 9.43 中 的 “ 骨 

干 交换 机 ”其 实 就 是 指 SBOD 所 采用 的 半 交 换 式 芯片 。 


2. 循环 镜像 的 写 缓存 
图 9.44 为 ETERNUS6000 控制 器 间 循 环 缓存 镜像 写 示 意图 。 


Write 
Data 


" 
si 
" 


B 9.43 ETERNUS6000 扩展 柜 架构 

数据 在 被 写 入 任何 一 个 控制 器 的 Cache 时 ， 系 统 会 
将 写 入 的 数据 复制 到 其 他 控制 器 的 缓存 中 做 元 余 。 一 旦 
在 数据 还 没有 写 入 硬盘 之 前 ， 某 个 控制 器 发 生 了 故障 ， 
写 缓存 镜像 技术 可 以 保证 数据 不 会 丢失 ， 可 以 将 数据 从 
镜像 绥 存 中 写 入 硬盘 。 读 缓存 不 需要 这 种 技术 ， 因 为 读 
操作 只 是 将 数据 从 硬盘 上 读 入 RAM， 如 果 此 时 控制 器 故 
障 ， 磁 盘 中 的 数据 依然 存在 。 最 重要 的 是 缓存 镜像 技术 
会 浪费 宝贵 的 缓存 容量 ， 读 操作 没有 必要 实现 缓存 镜像 。 

3. 跨 扩 展柜 做 Raid Group 


图 9.45 所 示 为 ETERNUS6000 跨 扩展 柜 的 图 8.45 跨 扩展 柜 的 Raid Group 
Raid Group 示意 图 。 
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前 面 也 介绍 过 ， 为 了 获得 足够 的 匈 余 性 ， 很 多 厂家 的 盘 阵 产品 一 般 都 选择 将 不 同 扩展 
柜 中 的 硬盘 容纳 到 一 个 Raid Group 中 , 而 不 是 让 一 个 Raid Group 包含 同一 个 扩展 柜 中 所 有 


的 磁盘 。 


9.4.5 EMC 公 司 CX 及 DMX 系列 盘 阵 介绍 
1. CX 系列 产品 
CX 系列 产品 性 能 如 下 。 
e ”充分 见 余 体 系 结构 。 
e ” 双 存 储 处 理 器 。 
电源 、 冷 却 、 数 据 路 径 、 独 立 电 源 。 
无 间断 操作 。 
在 线 软件 升级 。 
在 线 硬 件 更 改 。 
e 高 级 数据 完整 性 。 
e 镜像 写 缓存 。 
4 发生 电 源 故障 时 将 写 缓存 转 储 到 磁盘 。 
+ SNIFFER: 扇 区 检查 实用 程序 。 
* 
* 
4. 


+ + + o 


点 对 点 DAE Wi. 
具有 无 中 断 故 障 切换 的 双 vo 通道 。 
小 层 容量 。 
* 15K: 36 GB, 73 GB, 146 GB; 
10K: 73 GB, 146 GB, 300 GB. 
€ 500 GB SATAII. 
e 5 一 480 个 人 磁盘。 
o 灵活 性 。 
e 混合 RAID 级 别 。 
* RAID 级 别 0、1、1+0、3 和 5。 cem 
e PDA 16GB 的 可 调式 缓存 。 


图 9.46 为 CX 系列 的 实物 图 和 透视 图 。 946 CX 系列 产品 实物 图 和 透视 图 


图 9.47 为 CX700 的 控制 器 架构 示意 图 。 
图 9.48 为 CX700 控制 器 实物 图 。 


2. Symmetrix DMX-3 系统 概述 


自己 到 达 每 一 目的 地 


e 直 连 矩阵 体系 结构 。 
CPU 与 内 存 之 间 采 用 点 对 点 直 连 访问 。 每 一 个 控制 器 都 有 其 
的 专用 通道 。 直 连 和 矩阵 底板 最 多 有 128 个 全 部 是 直 连 、 专 月 
道 ， 如 图 9.49 所 示 。 

e 每 个 控制 器 8 个 1.3 GHz PPC 处 理 器 。 
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e 最 多 12 个 通道 控制 器 。 
e 8 端口 2Gb 光纤 通道 。 
e 8 端口 ESCON。 
e 4 端口 多 协议 一 一 2 Gb FICON、iSCSI 和 用 于 RDF 的 千 兆 以 太 网 。 
e 最 多 8 个 磁盘 控制 器 。 
e 每 个 磁盘 控制 器 对 最 多 480 个 驱动 器 。 
+ 支持 无 中 断 添加 控制 器 。 
e 高达 512GB 全 局 内 存 (256 GB 可 用 )。 
带 有 内 存 保险 存储 保护 的 镜像 DDR 技术 。 
图 9.50 所 示 为 Symmetrix DMX-3 的 实物 图 ， 左 边 为 控制 器 机 柜 ， 右 边 为 磁盘 扩展 柜 
机 柜 。 


存储 处 理 器 存储 处 理 器 


wen (00 MARAE 
33333)3333333313 
— — — WIE .— — BMHHE— — — 
| 33333333333331373 
[——— — WEM 


33333)3933333313373 
COTS 


图 9.47 _CX700 的 控制 器 架构 示意 图 


加 |9.49 Symmetrix 矩阵 示意 图 图 9.50 Symmetrix DMX-3 实物 图 


94.6 HDS 公司 USP 系列 盘 阵 介绍 


USP 系列 机 器 为 目前 HDS 存储 产品 中 最 高 端的 机 器 .图 9.51 所 示 为 USP 系列 机 柜 实物 
图 。 图 9.52 所 示 为 USP-V 系列 的 虚拟 化 功能 示意 图 。 图 9.53 所 示 为 USP 系列 控制 器 架构 
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逻辑 示意 图 。 


Mainframe 


Storage Controller 


Disk Storage 


图 9.51 机 柜 实物 图 转 9.52 USP-V 系列 虚拟 化 示意 图 


Boss 控制 器 架构 示意 图 
9.5 ”磁盘 阵列 配置 实践 


951 Æ F IBM 的 DS4500 盘 阵 的 配置 实例 


在 拿 到 一 台 左 新 的 磁盘 阵列 之 后 ， 必 须 对 其 进行 相关 的 配置 ， 才 能 让 其 发 挥 功能 。 这 
些 配 置 包括 配置 LUN， 各 个 LUN 的 参数 ， 配置 LUN 映射 。 这 三 项 配置 是 使 一 个 盘 阵 可 以 用 
来 存 取 数据 的 最 基本 配置 。 下 面 就 以 一 台 带 有 两 个 扩展 柜 的 DS4500 磁盘 阵列 的 配置 为 例 ， 
向 大 家 演示 一 下 这 些 配 置 的 基本 步骤 。 
Storage Manager 软件 是 IBM 公司 开发 的 专门 针对 其 DS4000 系列 盘 阵 的 配置 工具 ， 这 
个 工具 可 以 运行 在 Windows 操作 系统 上 ， 通 过 以 太 网 与 磁盘 阵列 通信 ， 从 而 实现 配置 。 
在 配置 阵列 参数 之 前 ， 我 们 先 来 看 一 下 这 个 阵列 将 被 用 于 一 个 什么 样 的 环境 。 这 人 台 阵 
列 是 一 个 小 型 公司 购买 的 ， 准 备用 于 存放 公司 的 机 密 文 件 、SQL Server 数据 库 文件 、 静 态 
Web 网 站 文件 和 内 部 邮件 数据 。 整 体 拓扑 结构 如 图 9.54 所 示 。 
其 中 SQL Server 数据 库 服务 器 需要 3 个 LUN 存放 数据 ， 总 容量 1TB 十 。 邮 件 和 网 站 各 
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需要 一 个 LUN， 大 小 分 别 为 300GB 十 和 50GB 十 。FTP 服务 器 需要 2 个 LUN，400GB 十 。 
所 有 服务 器 操作 系统 均 为 Windows 2003 Enterprise Server。 每 台 服 务 器 上 均 要 安装 2 
块 2Gb 速率 的 FC HBA 卡 ， 而 且 必 须 安 装 多 路 径 软件 。 


在 一 台 普通 PC 上 安装 盘 阵 随机 带 的 Storage Manager 软件 ， 然 后 将 这 人 台 PC 
连接 到 盘 阵 的 以 太 网 口上 ， 将 PC 的 IP 地 址 配置 成 与 盘 阵 初始 IP 地 址 相同 的 网 段 。 


双 绞 线 
之 后 ， 


通过 软件 主 界 面 添 加 盘 阵 的 IP 地 址 ， 这 样 软件 就 可 以 通过 TCP/IP 协议 与 盘 阵 进行 通信 了 。 
器 所 在 的 柜子 是 0 号 柜子 ， 也 就 是 
h 包 含 两 个 互 为 备份 元 余 的 控制 器 A 和 Bo 
Driver Enclosure 2 是 两 个 磁盘 扩展 柜 ， 每 个 柜子 中 包含 14 块 物理 磁 
P 也 有 提示 。 


从 图 9.55 中 可 以 看 到 这 套 设备 共有 3 个 柜子 ， 控 制 
图 中 右边 显示 的 Controller Enclosure, 这 个 柜子 中 


Driver Enclosure1 和 


盘 。 所 有 磁盘 的 总 容量 为 2552GB， 这 在 主 界面 左边 栏 
以 太 网 交换 机 | 
| 
Ere act 网 站 | | FTP 
msa | [msa | 服务 器 | (eem 
| 
SANI 
] 
A Re 
SQLLUN1 SQLLUN2 'SQLLUN2 WEBLUN 
扩展 柜 


部 件 信 息 ， 如 图 9.56 所 示 。 


图 9.54” 某 公司 IT 系统 后 端 拓扑 图 


单 击 足 按 钮 可 以 查看 柜子 的 供 上 


E FASIT 900 Unconfigured - Controller Enclosure 0 Component Information 


Power Supplies 


i» 
Temperature Sensors. 


i 


m 


1. 配置 LUN 


在 主 界面 中 右 击 Unconfigured Capacity， 创 寻 


<|| Controller Enclosure Overall Component Information 
Minihub data rate mismatch: No 
Part number: 348-0053047 
Serial number. 1794801497 
Vendor: IBM 
Date of manufacture: December 30, 2003 
Fan canister: Optimal 
Fan canister: Optimal 
Battery status: Optimal 
Age: 35 day(s) 
Days until replacement 145 day(s) 
Power supply canister 
Status: Optimal 
Part number: 348-0053050 
Serial number. 1794810025 
Vendor. VN IBM 
Date of manufacture: December 30, 2003 
Power supply canister 


ED 


GOUOCEOTEOTEA m 


图 9.55 Storage Manager 的 主 界面 
E. BA. mE. Pula rui. BR. SEP 模块 等 硬件 


J Close 
图 9.56 机 器 环境 监控 窗口 


EZH RAA (EN LUN)， 如 图 9.57 所 示 。 


1] 出 现 选择 主机 类 型 的 对 话 框 ， 选择 这 个 逻辑 磁盘 将 要 为 何 种 类 型 的 操作 系统 使 用 ， 
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大 话 存储 


网 络 存 储 系 统 原理 精 解 与 最 佳 实践 


这 里 我 们 选择 Windows 2000/Server 2003 Non-C， 即 “Windows 2003 非 集群 ” 
类 型 ， 如 图 9.58 所 示 。 


logical drves in the defaut group. 


IMPORTANT. 
Change tne nostype required. You only need to change t 
once for all logical drives. 


 Curentd 
Wincows 


T7 Dom gtsplar nis dialog again. 


m] omm] om | 


B8 
示 


18-5 


21 


31 
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Elo .57 创建 LUN 图 ss5s 选择 LUN 的 类 型 


有 些 磁 盘 阵 列 会 针对 不 同 的 操作 系统 提供 不 同类 型 的 LUN。 虽 然 LUN 对 于 操 
作 系 统 来 说 只 是 一 块 裸 磁 盘 ， 但 是 每 种 操作 系统 上 的 文件 系统 在 使 用 LUN 的 
行为 上 是 相差 异 的 。LUN 的 0 号 LBA 为 MBR， 占 用 了 一 个 扁 区 。 而 文件 系统 
一 般 使 用 比 扇 区 更 大 的 远 辑 块 来 做 为 分 配 单元 ， 所 以 有 些 文件 系统 对 于 LBA 
的 编号 就 要 从 LBAL 开始 , PP MBR 的 下 一 个 LBA. 对 于 一 些 盘 阵 控制 器 来 说 ， 
它们 管理 LUN 可 能 也 是 用 块 来 做 为 一 个 最 小 单元 。 但 控制 器 却 不 理解 MBR， 
只 认为 文件 系统 会 从 0 开始 顺序 编号 。 这 样 ， 就 产生 了 块 不 对 齐 的 现象 ， 从 而 
影响 了 性 能 ， 如 图 9.59 所 示 。 所 以 ， 有 些 以 块 为 单元 对 LUN 做 管理 的 盘 阵 控 
制 器 会 针对 不 同文 件 系统 制作 对 应 的 LUN。 


图 9.59 文件 系统 与 盘 阵 的 LUN 块 不 对 齐 示意 图 


在 图 9.60 所 示 的 对 话 框 中 , 需要 先 创 建 RAID Group( 或 Arrays), 然后 在 建 好 的 RG 
中 再 划分 LUN。 数 据 库 对 于 10 性 能 是 要 较 高 要 求 的 ， 所 以 给 数据 库 的 3 个 LUN 各 
分 配 一 个 RG， 充 分 保证 数据 库 的 10 性 能 。 
选择 相应 的 RAID 级 别 。 如 果 想 手动 选择 组 成 RAID Group 的 磁盘 ， 选 中 Manual 
单 选 按钮 。 然 后 在 下 方 磁盘 列表 中 , 按 住 Ctrl 键 选择 组 成 这 个 RG 的 所 有 磁盘 成 员 ， 
最 后 单 击 Apply 按钮 ， 如 图 9.60 所 示 。 如 果 想 让 程序 自动 生成 各 种 大 小 的 RG， 则 
要 选中 Automatic 单 选 按钮 ， 如 图 9.61 所 示 。 
这 里 让 系统 自动 为 我 们 计算 。 在 RAID 5 级 别 下 ， 系 统计 算出 的 各 种 容量 、 磁 盘 数 
量 的 RG HA. Channel Protection 指 的 是 让 RG 中 所 有 磁盘 成 员 分 布 在 两 个 扩展 
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柜 中 ， 充 分 保证 完 余 性 。 我 们 选择 5 块 盘 的 292GB 容量 。 


EE FASIT 900 Unconnoued -Create Logical Drive VLard - Speci Aray Parameters 


Because you specified unconigured capacity fom fne previous screer, you must indicate the 
RAID levol and overall capacity of the new array. You speciy he exact capacity for ne individual 
logica drive on the nex screen. 

Create new anay 

BAID leve 

[RAD 5 ”可 

Drive selection choices: 

C Aubmaic- selectfrom list of provided raparites/drives 


(€ manual- selectycur own dives to obtan capacity (minimum 3 drves) 


Encsure ] Er] | omecapacy 
7300068 E 
3 
Lr m —« 
73000 58 
145.000 cb 2 


E Sexe | nem 
图 96o RAID 类 型 选择 ， 手 动 分 配 磁盘 


ii FASTI 900 Unconfigured - Create Logical Drive Vizard - Specity Array Parameters. 


Because you spocifiad uncorfigured capacity from tho previous scroen, you mustindicato the 
RAID level and overall capaciy ofthe new array. You specitytre exact capacity for the individual 
logical drivo on the nost scroen. 


Croato now array 
BAD level: 
ac5 3 
Drive selection choices 
(€. Automatic- oolectfiom fot of priced copacites/óries 


C Manual - selectycur own cries to obtain capacity Orinimum 3 drives) 


Umes |. cwmermewn  ] 
Vv 4 


145.000 06 
E 


ANE 
(265.000 0E 
433.009 GE 
511.000 68 


B 961 Ez Bo 


在 这 个 RG 中 ， 我 们 可 以 手动 指定 大 小 ， 划 分 出 新 的 LUN( 即 Logical Drive), 3X f 
将 全 部 容量 分 配给 一 个 LUN， 命 名 为 SQLLUN1，LUN 的 参数 选择 自 定义 。 
选择 条 带 深 度 为 32KB， 每 个 条 带 的 数据 部 分 的 宽度 就 是 32KB 乘 以 4 块 数据 
Segment 为 128KB。 这 样 ， 只 要 将 SQL Server 数据 库 的 Extent 参数 设置 为 128KB 
大 小 ,就 可 以 保证 每 次 读 写 RG 均 为 整 条 读 写 ， 充 分 提高 10 性 能 (但 这 样 做 会 丧失 
并 发 10 能力)， 如 图 9.62 所 示 。Preferred controller ownership 表示 这 个 RAID 
Group 平时 由 哪个 控制 器 管理 。 我 们 选择 Slot A， 即 控制 器 A。 一 旦 控制 器 A 发 生 
故障 ， 这 个 RG 会 立即 由 控制 器 B 接管 。 

Logical Drive-to-LUN Mapping 即 LUN 映射 ， 配置 这 个 LUN 将 给 哪个 或 者 哪些 主 
机 使 用 。 我 们 稍 后 选择 用 专门 的 配置 模块 配置 ， 如 图 9.63 所 示 。 
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Logical Drive name: SQLLUNT 
Logical Drva capac tty. 292.000 GB 


Logical Drive KO characteristics- 


^ Fle system OwlcaD) Cathe read ahead multpler (010 05535; 
E! 


Segment size: 


3 The new logical drive was successfully created. 
Tagia Deve-to-LUN mapping — — — — 


C Automate A Doyouwantto create another logical drive? 


6 Mao laterum Storage Partnering c 


C gferent anay 


| emn [e | Em] e| m] 


Ble 选择 条 带 深度 图 9.63_ 配 置 LUN 映射 
7】 配置 完 后 ， 系 统 会 提示 是 否 还 要 配置 另外 的 RG 或 者 LUN。 因 为 这 个 RG 全 部 容量 
已 经 分 配给 了 一 个 LUN， 所 以 窗口 中 的 same array 单 选 按钮 为 灰色 的 。 单 击 Yes 
进入 新 一 轮 的 RG 和 LUN 配置 。 用 这 种 方法 , 配置 所 有 6 个 LUN, 如 图 9.64 所 示 。 


1H FASIT 900 Unconfiqured -IBM FA SIT Storage bsyst emen Ermm 
Srage Subsystem View Maopinos Arar 
s aaga 
b Logement Vir | B vaccines view | 
Local 
ÍO storaae sutsrsrem FAerr 909 Unccrfoured 
Q) Unconfgurod Capacity (36 GE) 

e guess 
e gres s 

@ soun 3208 
wma 

@ cotLuvo a300) 
araz Raos 

国 wwu_u G66 03) 


E T 
@ wescon OI ee 

egre eon 
国 Frrtun eom 

o Bre nba 
rro ccn 


Bls.e4 创建 完毕 的 6 个 LUN 
于 这 个 环境 中 的 FTP 服务 器 主要 存放 视频 等 大 文件 , 所 以 使 用 RAID 3 级 别 来 提高 传 
输 性 能 ， 如 图 9.64 所 示 。 另 外 ， 只 要 选中 某 个 创建 好 的 RG 或 者 LUN， 右 边 窗口 中 便 会 显 
示 出 这 个 RG 和 LUN 所 对 应 的 物理 磁盘 以 及 掌管 它 的 控制 器 。 
2. 设置 全 局 热 备 磁盘 
11 最 好 设置 1 个 或 者 2 个 热 备 磁盘 。 这 样 ， 一 旦 某 块 磁盘 损坏 ， 热 备 磁盘 立即 项 蔡 ， 
以 免 数 据 丢失 ， 如 图 9.65 所 示 。 
2] 设置 完 热 备 磁盘 之 后 ， 可 以 进一步 更 改 每 个 RG 或 者 LUN 的 细节 参数 ， 如 图 9.66 
和 图 9.67 所 示 。 
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TASIT S00 Uncontigured IAAI FASIT Storage Manager 8 (Subsystem Management 


Strage Subsystem Maw Mappings Aray 


S EJ 到 | 到 
bccecneyera vem | Ra vepones View | 
toaal 
[O serae suom FASI S00 Urat 
 Unceniiauted Capaciy (6 08 
a gr caos 
@ soum gez os; 
gene exon 
soc osos) 
goo uos 
Bouman 63 
o gei eno 
[TOT 
E TnT 
Brung: oD 
5 git uon 
Qe ava o 
T 
Bumz oa se 


E CER FASIT Storage Manger (Suboystem Manegemcnt) 


Storage Subsystem View Mappings Aray LpgicalDrve Comroler Dime Advanced Hei 


S o OX S sil 
iy togiaverysrai ime | 8 Va ppinge Vow | 
Logtat Pmaea 
(© Strago suocyctom FastT ooo Unconigured — || coute Encosue 
e Ao 
[ 5 dpi 
EL TETIUEI 
geom ol 
2g iro eeos 
mecie Scan Sotnge. 


[TOTIS 
Oreste nd Pa v 

sg irricnos EE. 

Batun o BEHEH x 
E T 

国 weeuuvos 
T Tu 

geri os 
5 greet eao) 

rre oa ce 


Mocificaon Proiiy 
Cache Sat. 


= TASIT 900 Unconfaursd -IIN 'ASIT Storage Manager € (Subsystem 
Strage Subsystem View Mapoings Aray Logical Drhe Comoler Die schenced Help 


sagsag 


[E 


pu 


ponnolor Emelooure 0 
^ Ee 
' Ee Us 


aat Host Type. 


e Setinae.. 
Neca Scan Satings, 
ore Aet Del 


E67 各 种 参数 (2) 
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3. 设置 LUN 映射 


11 


21 


31 
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切换 到 主 界面 的 Mappings View 选项 卡 ， 然 后 右 击 设备 名 ， 选 择 Define Host 命令 
来 添加 主机 信息 ， 即 使 用 这 台 盘 阵 的 主机 信息 ， 如 图 9.68 所 示 。 


[al 


Feos 
flens 


Downoad 
Change 
Set Conirotir Ces. 


Run Read Link Sus 
Rerams. 


图 9.6s 添加 主机 映射 


Host Name 可 以 随便 起 名 , 并 不 一 定 要 与 对 应 主机 的 真正 Hostname 相同 。 添 加 完 
所 有 主机 后 ， 界 面 的 显示 如 图 9.69 所 示 。 


3H FASIT 900 Unconfigured -IBM FA SIT Stora 


DetrecManoros. 
Logai Dve Name | xcessiow y | LUN [ conca rw canoa | Tve | 


FÈ FTPLUN2= LUN? 
请 wwuun=un? 
苑 souum -un? 
fijsocLuN2 2 Lun? 
Fijsoccui -uo 
Fg wesLun - Lun? 


o ffjoranorun 
HootGQLserver 


Hostwansenar 
E HostMaiseror 
E HostFTPserer 


图 .69 主机 列表 


添加 完 主 机 名 之 后 ， 还 必须 添加 Host Port， 即 必须 让 级 阵 知道 主机 使 用 哪些 FC 
接口 来 访问 盘 阵 。 右 击 某 个 主机 名 ， 选 择 Define Host Port 命令 ， 如 图 9.70 所 示 。 
在 Port Identifier 处 ,我 们 选择 对 应 的 ID( 即 每 个 主机 FC HBA 卡 上 的 WWN 地 址 ， 
盘 阵 会 通过 Fabric 网 络 自 动 发 现 这 些 地 址 )。 主 机 类 型 当然 选择 Windows 
2000/Server 2003 Non-C, Host port name 随便 起 一 个 名 字 即 可 ， 如 图 9.71 所 示 。 
台 服 务 器 上 有 两 块 FC 卡 ， 所 以 每 台 主机 共有 两 个 接口 ， 在 此 为 每 个 接口 都 定义 
一 下 。 定 义 好 每 台 主 机 的 接口 之 后 ， 如 图 9.72 所 示 。 


Sorage Subsystem Vew Mepores Aray Legisi ne Careler Die dncee Help 


S 到 到 S 到 
tostais view [a vapeon vow 
eres 
[C Strage out raer Stt nente 
ij ncementaserc 
Arun -um 
Biene 


Deined spins 
Lonea Dra Nare | Morse By | LN | Logicae Casse | Ts ] 
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FASIT 900 Unconfigured - Define Host 


Make sure you define all host ports for this 
particular host. 


Host SQLserver 


Host port identifier (16 characters). 


iuo 


[3738393031323332 - 


Refresh 


Soum- un? 
Breum Ln? Hosttype: 

wult Group [windows 2000/Server 2003 Non-C ~ 
z 
H osensener Host port name: 


eee T arrera egg | Forsener po 


目 kosrrpaewer — | 
Close Help 
B7: 主机 上 的 FC 端口 信息 


Rn | 


9.70 添加 主机 的 FC 端口 信息 


国 Leeepmscolvee Ba Varones vow | 
Foro pets wopprgs 
Tý souu Lun? 
weave Luno 
iB] vanun rouo 


ogen Ome ame | xxesssety | ON | issencmecenen | wwe | 


iare 
Host Petar sort 
Wrescrentssenor sor? 
s B roar msener 
ro 
Whon Pon Tsere er 
Miro Pon sene con 
4 目 HosteaLaener 
re 
MHo Ponson: 


Blo.72 所 有 主机 端口 定义 完毕 
5] 在 未 映射 的 LUN 上 右 击 , 选择 Define Additional Mapping 命令 , 打开 如 图 9.73 所 
示 的 对 话 框 。 


ASIT 900 Unconiigured -Define Addional Maoping 


Selesta host grouo er hest, logical untnumber (LUN), and logical drive t create a 
logica drive-10-LUN mapping. 


Host group or host: 
[Host SaLeener z 
Legical urit numaar (LUN) (0 1015) 


NEN: | 


Logical Driye- 


Logcal Drva Nama 


Logcsi re Capacity 


Access 
FTPLUNI 
ETPLUNZ 
MALLUN 
BATUN 
BALLUN? 
ouuun3 
|^EBLUN 


Bl.73 映射 LUN 到 主机 端口 
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6] 在 Host group or host 下 拉 列 表 框 中 选择 Host SQLserver 这 台 主 机 ，Logic unit 
number 表示 此 次 映射 给 这 台 主 机 的 LUN， 在 主机 上 将 显示 LUN 的 号 码 。 图 9.73 
中 ,将 SQLLUN1 这 个 LUN 映射 给 主机 SQLserver， 主 机 上 显示 的 对 应 这 块 LUN 
的 号 码 是 LUN0。 用 这 种 方法 ， 将 所 有 属于 SQLserver 主机 的 3 个 LUN 都 映射 好 
后 ， 单 击 close。 结 果 如 图 9.74 所 示 。 


Bl74 LUN 映射 完毕 
了 单 击 每 台 主机 ， 右 边 就 会 出 现 这 台 主 机 可 以 访问 的 LUN 及 其 相关 信息 。 注 意 : 


每 个 LUN 只 能 映射 给 一 台 主机 。 理论 上 ， 一 个 LUN 完全 可 以 映射 给 多 台 主 机 
日 共 同 访问 使 用 的 ， 这 就 需要 用 到 partition 功能 了 。 这 里 就 不 做 过 多 介绍 了 。 


4. 初始 化 LUN 配置 


11 所 有 设置 做 完 之 后 ,需要 进行 初始 化 。 初 始 化 完毕 之 后 ， 才 能 供 主机 使 用 。 
2] Hits Array 或 者 LUN， 然 后 选择 Initialize 命令 ， 如 图 9.75 和 图 9.76 所 示 。 


图 9.75_ 初 始 化 磁盘 阵列 
31 右 击 每 个 Array， 选 择 属性 命令 ， 可 以 查看 初始 化 的 进度 ， 如 图 9.77 所 示 。 
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Si FASET $00 Uncontgured. Logcal Drve Prcpertes. 


Loga Orme name sauna 
Logica Dive ID 3233202626::3329 2031:3229 2500902 00009029 
Subsystem D (S310) 10 
Suns crit 
peces 
p Gn Corirolrin t 
suc e2209 Corsi 439 0 
ES FAD iever 5 
o sou UN2 en oa a Segment sze: 32 KB 
—— DEAD 
qe.  QLLUNS (38 G9) al yr Read cache. Soi 
E wenn 


Wit cache: Enabled 
Bo won geses) Witte cache without batteries: Disabled 


smn "t cache wih irori Enabled 
resumo Fish wie cache ater gn seconds) 500 
egre oos Cathe roce ahead mutplar5 
E Enable acoround media scan: Enabled 
Media scan wit redundancy check Disabled 
iazaton-Pogess 


NOTE: To change the rate of modification, use tne Logical 
Drive» Change»» Modification Priority option. 


图 9.76_ 初 始 化 所 有 RAID 组 Bez 初始化 进度 窗口 
初始 化 完成 之 后 ， 盘 阵 即 可 接受 主机 访问 了 。 
其 他 不 同 品 牌 型 号 的 磁盘 阵列 产品 的 配置 过 程 大 同 小 异 ， 只 要 理解 了 磁盘 阵列 的 组 成 
架构 和 原理 ， 配 置 起 来 其 实 是 很 简单 的 。 


9.5.2 基于 EMC 的 CX700 磁盘 阵列 配置 实例 

在 此 我 们 简要 介绍 一 下 EMC 针对 CX 系列 的 配置 工具 Navisphere。 

1 登录 Navisphere， 查 看 全 局 情况 

全 局 视图 如 图 9.78 所 示 。 图 9.79 为 所 连接 的 两 个 扩展 柜 中 的 一 个 柜子 里 的 磁盘 列表 。 
图 9.80 所 示 为 控制 嚣 柜 里 包含 的 两 个 控制 器 的 信息 。 图 9.81 所 示 为 存放 盘 阵 操作 系统 及 重 
要 配置 信息 的 私有 LUN。 每 个 控制 器 都 有 各 自 的 私有 LUN。 图 9.82 所 示 为 映射 LUN 与 主 
机 用 的 Storage Groups， 也 就 是 映射 组 。 在 这 个 组 中 的 主机 可 以 访问 这 个 组 中 的 LUN。 


a 自 cx2 [cx7o0 
g 


Fiter y: gj rers Hosts 
Ee Reserved LUN Pool 
Storage | Hosts | Monitore! SP ALUN Pool [0 GB; 100% Free Space] 
GE eera SP B LUN Pool [0 GB; 100% Free Space] 
SB reconec LUN ron = BB Physical 
EP A LUN Pool [0 09; 100% Free Space] & $ Bus 0 Enclosure 0 [DAE] 
SP B LUN Pool [0 GÀ; 100% Free Space] 5 e Disks 
LI ni esum Pd 9 Bus 0 Enclosure 0 Disk 0 
piri i @ Bus 0 Enclosure 0 Disk 1 
i gt Fans 49 Bus 0 Enclosure 0 Disk 2 
H Von " 49 Bus 0 Enclosure 0 Disk 3 
i M Bus 1 Encosure D DAE) qd Bus 0 Enetosuné D Diek 4. 


回国 Eus 2Enciosure 0 [DAE2-ATA] 
s Lnd SPE [SPE] 
i2 Fans 
= i Powe! Supples 
d 4e SPs 
= BB Standy Power Supplies 
SpA 


Luns 
SAN Copy Connection 


Snapshots 


Bl.78 全 局 


49 Bus 0 Enclosure 0 Disk 5 
49 Bus 0 Enclosure 0 Disk 6 
49 Bus 0 Enclosure 0 Disk 7 
49 Bus 0 Enclosure 0 Disk 8 
49 Bus 0 Enclosure 0 Disk 9 
@ Bus 0 Enclosure 0 Disk 10 
49 Bus 0 Enclosure 0 Disk 11 
49 Bus 0 Enclosure 0 Disk 12 
49 Bus 0 Enclosure 0 Disk 13 
49 Bus 0 Enclosure 0 Disk 14 


8$ s Fans 
& € Lccs 
田 af Power Sunnlies 


图 e879_ 扩 展柜 中 的 磁盘 列表 
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SP ALUN Fool |U GB; 1UU Free spacel 
SP B LUN Pool [0 GB; 100% Free Space] 
S B Physical 
Bus 0 Enclosure 0 [DAE] 
Bus 1 Enclosure 0 [DAE] 
Bus 2 Enclosure 0 [DAE2-ATA] 
Eg SPE [SPE] 
Fans 
aÈ Power Supplies 
SPs 
m$ SPA 
«f. Port 50:06:01:60:B0:60:05:7E:50:06:01:60:30:60:05:7E 
wf Port 50:06:01:60.8060.05.7:50:06.01:61:30:60.05.7E. 
wf Port 50:06:01:60:B0:60:05:7E:50:06:01:62:30:60:05:7E 
wf Port 50:06:01:60:B0:60:05:7E:50:06:01:63:30:60:05:7E 
Se sPB 
wf Port 50:06:01:6080:60.05.7:50:06:01:64:30:60.05.7E. 
wf Port 50:06:01:60.80:60.05.7:50.06.01:68:3060.0577E. 
wf. Port 50:06:01:60:B0:60:05:7E:50:06:01:68:30:60:05:7E 
wf Port 50:06:01:60:B0:60:05:7E:50:06:01:69:30:60:05:7E 
男生 Standby Power Supplies 
* 1 SPA 
=È sPB 


& GR RAD Groups 


图 9.80 控制 器 柜 中 的 两 个 控制 器 


B Hox [cx700l 


@ B Hosts 
国 Reserved LUN Pool Lj HL 
田 Bg Physical & B9 Storage Groups 
SPA 861 
sumt Hosts 
Se sPB LUNS 
BÀ Private LUNs SAN Copy Connection 
日 GR RAD Groups Snapshots 
(B8 RAID Group 0 [RAID 5] a Bo? 
4 Disks Hosts 
9 Bus 0 Enclosure 0 Disk 0 LUNS 
9 Bus 0 Enclosure 0 Disk 1 SAN Copy Connection 
49 Bus 0 Enclosure 0 Disk 2 Snapshots 
9 Bus 0 Enclosure 0 Disk 3 Consistency Groups 
9 Bus 0 Enclosure 0 Disk 4 Remote Mirrors 
田 Bj Private LUNs 田 SÉ Snapview 
Œ M SAN Copy Sessions 


图 9.81 用 于 存放 盘 阵 的 操作 系统 以 Unowned LUNS 


及 其 他 配置 信息 的 Private LUNs 加 9.s2 用 来 映射 LUN 和 主机 的 Storage Groups 
2. 创建 RAID 组 


在 盘 阵 图 标 上 右 击 ， 选 择 Create RAID Group 命令 ， 如 图 9.83 所 示 。 
在 如 图 9.84 所 示 的 对 话 框 中 选择 RAID 组 的 ID. RAID 组 所 包含 的 磁盘 数量 以 及 其 他 


参数 。 
OQ - Creste RAID Group. 
| upauppemure  — — — — — — — — —, 
| poorc 下 - 
Number ofDisks: [4 M 
a | supperedRAD Types: PAID ORAD S RAD 1:0 
EZE 
Bind LLN- | EAN 
Create Storage Group... T Automatically Desiroy ater last LUN is unbcund. 
pm | | EspansiorDettagmertaton rey Mem | 
Disk Summary... Disk- 
Software Operations n -Dist Selecon- 
Connectivity Status... 


Update Now... 
Properties. Disk Capacity — Dive Type. 
d$ SusiEnidosu.. 25008 ATA Drive 
[9 ani enmar. noa aranma B 
d$ 2u 1 Entlosur.. 26008 ATA Drva 
$ Bus 1 Encloswr.. 25008 ATA Drive 

Bus1 ntiosur 75068 __ ATA Drve 


[apoy ) [ cance) CHop 


4 _RAID 组 参数 


E 83 创建 RAID 组 
在 创建 好 的 新 RAID 组 上 右 击 ， 选 择 Bind LUN 命令 创建 LUN， 如 图 9.85 所 示 。 
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的 对 话 框 


利 


5 名 RAD Groups 
= BB PAID Group 0 [RAID 5j 


S Disks Destroy 
DE properies | 
$ EXIT. 
45. anayzer lk3 
$5 ka 


$9 Bus 1 Enclosure 0 disk5 
4? Bus 1 Enclosure 0 disk 
$ Bus 1 Enclosure 0 disk? 
Ê Bus 1 Enclosure D disk8 
$ Bus 1 Enclosure 0 disk 
49 Bus 1 Enclosure 0 disk 10 
$ tus 1 Enclosure 0 disk tt 
Ê Bus 1 Enclosure 0 disk 12 
$ Bus 1 Enclosura 0 disk13 
E Private LUNS 
Œ BB Storage Groups 
Consistency Groups 
$ Remote Mirors 


贺 9.85 Æ RAID 组 上 创建 ( 绑 定 )LUN 
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第 O 章 天 翻 地 覆 一 FC 协议 的 巨大 力量 


ph， 我 们 选择 RAID 类 型 为 RAID 5， 如 图 9.86 和 图 9.87 所 示 。 
上 述 方法 创建 LUN 6 和 LUN 7 两 个 LUN， 如 图 9.88 所 示 。 
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D Groupo] 
RAID Group O IRAID 5] 

RAID Oroup 1 [RAID 5, ATA Driv. 
S 4p Disko 

5 E$ LUN BIE; RAD 5] 

Bus 1 Enclosure 0 disko 
$ Bus 1 Erclsure 0 disk1 
$ Bus 1 Enclosure 0 disk2 
$ Bus 1 Enclosure 0 disco 
4? Bus 1 Enclosure 0 olsk4 

Bus 1 Enclosure 0 disk5 
$ Bus 1 Ercosure 0 disk6 
$ Bus | Enclosure 0 disk7 
$$ Bus 1 Ercosure 0 dick 
9 Eus 1 Enclosure 0 oisk9 
$ Das 1 Erclosure 0 disk1D 
$ Bus 1 Erclosure 0 cisk11 
$ Bus 1 Erdosue C disk12 
$$ Bos 1 Enclosure 0 dlek13 

is B LUNTI; Ro] 
Privat LUNS 


B 9.88 创建 好 的 两 个 LUN: LUN 6 fn LUN 7 


3. 创建 Storage Group 并 绑 定 主机 与 LUN 


在 盘 阵 图 标 上 右 击 ， 选 择 Create 
在 打开 的 对 话 框 中 输入 新 Storag 


a 
Ue Ho create RAID Group... 
VENDS Bind LUN. 


S SP Fa 
jeg Disk sumay- 
Gg Sofware Operations > 
E  Connedtiviy Status 
$ Update Now. 
Properties. 
SnapView , 
Niro ew > 
m P SAN Cony , 
t Gt Analyzer , 


9.89 ”创建 Storage Group 


在 创建 好 的 Storage Group Eid 


Storage Group 命令 ， 如 图 9.89 所 示 。 
e Group 的 名 称 ， 如 图 9.90 所 示 。 


Z O2 -Create Storage Group 


DERI 


Storage System: 
Storage Group Name | Storage Group 3 ] 


ex 


[ 
B 9.90 ”给 新 Storage Group 起 名 


9x [amw][s Len | 


E, XEFE Select LUN MAHE LUN, WE 9.91 所 示 。 


将 要 分 配给 这 个 组 的 LUN 移动 到 右边 的 窗口 ， 如 图 9.92 所 示 。 


切换 到 Hosts 选项 卡 ， 选 择 要 分 配 的 主机 ， 将 


T 


移动 到 右 侧 窗口 ， 如 图 9.93 所 示 。 
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大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


添加 完 LUN 和 主机 之 后 ， 对 应 的 主机 就 可 以 识别 到 对 应 的 LUN, 2f 


图 9.94 所 示 。 


F 可 以 使 


E O2 - Storage Group 3:5torage Group Properties 


Genera LNs [ oss 
ShowLuns atin omar Saga Groups s 
‘Soca Lue- 
Aetate LUNs Balested Lune 
D Nae Oper i [3 zj 
rae Lu S: Lume  SU3B 
& BB Storage Groups T unt moB 
« £9 so! 
a 一 
a — 
Snapshots 
和 Consistency Group Properties.. 
Remote Mirrors SAN Copy , 
& S snapview 
, 
s Mg SAN Copy Session Anabzer Sk — Lm] Lem Den | 
Unowned LUNs » = = = 


图 9.92 选择 要 映射 的 LUN 


& Ë Storage Groups 
* 


E 9.91 选择 要 映射 的 LUN 
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xhan. 102140.. Wim 
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* 
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eos 选择 要 绑 定 的 主机 


562 


5 Ø Hosts 
iB] SQL157 RECRMLITEO1.COM 
Æ exchange150.rmlite.com 
日 名 LUNS 
LUN 6 [6; RAID 5] 
LUN 7 [7; RAID 5] 
SAN Copy Connection 
Snapshots Names 
Consistency Groups 
Remote Mirrors 
SnapView 
SAN Copy Sessions 
Unowned LUNs 


B 9.94 创建 好 的 Storage Group 


各 种 磁盘 阵列 的 配置 都 是 大 同 小 异 的 ， 总 的 来 说 主要 有 以 下 三 步 。 


11 
21 
31 


配置 RAID 2H, 
在 RAID 组 上 划分 LUN。 
将 LUN 映射 给 相应 的 主机 使 用 。 


D 


9.6 zo 


小 


磁盘 阵列 的 前 端 和 后 端 用 FC 网 络 作为 通路 取代 原来 的 并 行 SCSI 通路 技术 ， 获 得 了 极 


大 的 成 功 ! 如 果 说 只 将 半 
为 FC 网 络 上 的 节点 对 待 ， 可 就 是 彻 彻底 底 的 网 络 化 存储 系统 了 。 这 也 自然 曾 释 了 


L2 E 
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机 通道 蔡 换 成 FC 通路 只 能 称 为 半 网 络 的 话 ， 那 么 将 一 个 个 磁盘 作 


“网 络 


“存储 网 络 ” 的 概念 。 


此 时 ,我 们 再 来 看 本 书 第 2 章 中 所 描述 的 那个 “网 中 有 网 ”的 模型 ， 可 以 看 到 ， 


整个 系统 ， 所 有 通路 ， 都 可 以 说 是 网 络 化 的 了 ， 只 不 过 CPU 内 存 总 线 和 主机 


E IO 总 线 应 该 算是 半 网 络 化 ， 只 是 一 个 总 线 ， 上 面 没 有 网 络 化 所 特有 的 “协议 ” 


和 “开销 ”、 包 交换 等 词汇 。 


第 O 章 天 翻 地 覆 一 FC 协议 的 巨大 力量 


目前 ，NGIO(Next Generation I0) 已 经 提 上 。 这 种 架构 就 是 将 主机 10 总 线 甚至 内 存 
总 线 都 用 交换 式 网 络 来 连接 。 可 想 而 知 ， 这 个 ed 率 肯 定 很 高 ， 稳 定性 和 可 扩展 性 
也 很 强 。 
到 了 Next Generation 时 代 ， 内 存 、CPU 和 各 种 IO 设备 可 以 在 地 理 上 相隔 很 远 ， 甚 至 
可 以 通过 网 络 共享 。 内 存 可 以 不 仅仅 被 一 个 CPU 使 用 ， 多 个 CPU、 多 个 内 存 、 多 个 I0 控制 
器 之 间 都 是 点 对 点 交换 式 互联 通信 。 这 是 一 个 很 有 吸引 力 的 课题 ， 就 像 存储 网 络 化 一 样 。 
对 于 存储 网 络 化 ， 位 于 A 地 的 主机 可 以 识别 并 适用 远 在 相隔 千里 的 B 地 一 台 盘 阵 上 的 LUN。 
那么 对 于 网 络 化 的 系统 总 线 ，A 地 的 CPU 可 以 访问 位 于 B 地 的 内 存 阵列 或 者 位 于 B 地 的 某 
个 10 控制 器 ， 它 们 之 间 都 通过 网 络 相 连 。 
有 人 将 上 面 描述 的 架构 ， 称 为 System Area Network, E! SAN( 系 统 区 域 网 络 )。 有 意 
思 的 是 ， 它 和 Storage Area Network 的 简称 同名 。 


Raf d ( 教 青云 闭 ) 
上 穷 碧落 下 黄泉 ， 
为 索 原 理 细 探 源 。 
若非 前 贤 勤 耕作 ， 
何 来 经 典 广 流传 ? 
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FC 已 经 成 功 地 将 传统 的 磁盘 阵列 改造 成 了 彻底 网 络 化 传输 的 磁盘 阵列 ， 不 仅 从 盘 
阵 到 主机 的 通路 成 了 网 络 化 ， 就 连 盘 阵 后 端 控 制 器 到 磁盘 的 连接 也 被 彻底 网 络 化 了 。 
尤其 对 盘 阵 后 端的 改革 更 是 一 个 惊人 的 创举 ! 

盘 阵 后 端的 网 络 化 使 可 接 入 磁盘 节点 数 大 大 增加 ， 可 扩展 性 大 大 增强 。 一 时 间 各 
个 厂家 纷纷 制造 出 自己 的 盘 阵 ， 由 于 后 端 接 入 容量 增加 ， 这 些 盘 阵 不 是 几 个 磁盘 箱 就 
能 放下 的 了 ， 它 们 动 辑 就 要 占用 几 个 大 机 柜 。 机 房 中 占 地 最 大 的 往往 就 是 存储 设备 ， 
而 不 是 主机 设备 。 

存储 区 域 网 络 (Storage Area Network，SAN) 这 个 概念 ， 直 到 FC 革命 成 功 之 后 ， 其 
意义 才 真 正 的 体现 出 来 ， 存 储 才 真正 走向 了 网 络 化 。 在 广义 中 ， 各 种 存储 架构 都 可 以 
称 为 SAN， 因 为 就 算 直 接连 到 主板 上 的 IDE 通道 也 可 以 连接 两 块 磁盘 。 从 这 种 意义 上 
说 ， 它 就 是 一 个 2 节点 网 络 。 


大 话 存储 


网 络 存储 技术 原理 精 解 与 最 佳 实践 


10.1 NAS 也 疯狂 


武当 及 张 真人 所 创 。 想 当年 ， 张 真人 就 是 在 武当 创立 了 卷 管理 和 文件 系统 的 伟大 理论 ! 
如 今 ， 张 真人 已 经 逝去 多 年 。 然 而 ， 他 的 理论 却 被 广泛 的 应 用 着 ,而且 深入 人 心 。 不 过 ， 
没 人 会 追究 起 到 底 是 谁 创 立 了 这 些 理论 ， 因 为 它 太 广泛 了 ， 广 泛 地 以 至 于 没有 人 去 理会 
它 了 。 


10.1.1 另辟蹊径 一 一 乱弹 NAS 的 起 家 

武当 也 跟 上 了 时 代 的 变化 ， 不 但 本 身 的 体制 从 公有 制 改 成 了 股份 制 ， 而 且 董 事 会 还 决 
定 将 武当 仓库 全 面 对 外 开放 ， 利 用 一 切 可 以 利用 的 手段 需 利 。 刨 去 货币 贬值 的 因素 ， 收 费 
比 张 真人 时 代 贵 出 了 好 几 倍 。 利 润 大 部 分 属于 武当 董事 长 瓜 董 ， 剩 下 的 除了 给 员工 开 点 
资 外 ， 全 部 用 来 扩容 仓库 和 加 强 仓库 建设 ， 以 获取 更 大 的 利润 。 

1. 武当 仓库 简要 介绍 

武当 仓库 是 一 个 历史 悠久 、 源 远 流 长 的 大 型 仓库 ， 其 创始 人 是 张 真人 。 起 初 只 是 为 了 
满足 武当 本 派 存放 货物 使 用 ， 后 来 对 外 开放 。 仓 库 分 为 八 个 库 区 ， 每 个 库 区 中 又 有 不 计 其 
数 的 房间 。 整 个 仓库 配备 了 两 名 仓库 管理 员 ， 各 自 管理 四 个 库 区 。 一 旦 某 个 管理 员 请 假 不 
能 到 岗 ， 另 外 一 位 管理 员 就 要 和 暂时 管理 全 部 八 个 库 区 。 仓 库 共 有 东西 两 道 大 门 ， 各 由 一 位 
库 管 员 把 守 。 仓 库 地 理 位 置 优越 ， 其 前 方 就 是 一 个 立交 桥 大 枢纽 系统 ， 当 地 路 政 部 门 给 予 
武当 极其 优越 的 条 件 ， 专 门 为 武当 仓库 的 两 道 大 门 修了 能 直通 大 枢纽 的 高 速 路 。 

武当 仓库 当前 的 运作 模式 如 图 10.1 和 图 10.2 所 示 。 


少林 库 区 Miri p 明教 库 区 义和团 库 区 

MUR De 起 帮 库 区 benau] ET 
仓库 管理 员 1 仓库 管理 员 2 
NES 仓库 东 


交通 大 枢纽 


CE 武当 
/ D 
/ Mi 
/ EE 
Loads] a 
[I] 7 
明教 


Blo: 武当 仓库 当前 运作 模式 
自从 武当 仓库 宣布 对 外 全 面 开放 后 ， 短 短 的 一 天 内 ， 八 个 库 区 全 部 被 预 售 一 空 。 买 家 
当然 都 是 赫赫 有 名 的 大 门派 ， 因 为 也 只 有 他 们 才 出 得 起 高 价 。 
于 体 改 的 时 候 ， 当 年 被 张 真人 看 好 的 微软 道 长 被 瓜 董 打发 回 家 了 ， 所 以 现在 武当 仓 
库 只 有 两 位 根据 提货 单 和 入 库 单 进行 取 货 、 存 货 的 库 管 员 。 
当前 武当 提货 单 /存货 单 格式 如 图 10.3 所 示 。 
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图 10.2 当前 后 端 存储 网 络 架构 


武当 仓库 货物 存 取 单 年 H RH 
客户 名 称 : 存货 取 货 
库 区 编号 : 
»| 
要 存 取 的 起 始 房 间 编号 : 3 
存 取 此 后 的 连续 房间 的 数量 : 2 
PUE ds 
AUSILARE, ovk. ARESTUER, TAMERS ATA UR EH 
圆 10.3_ 当 前 武当 仓库 货 单 
每 个 门派 都 通过 交通 枢纽 来 向 武当 仓库 存 取 货 物 。 武 当 存 取 货 物 的 单据 上 没有 对 货物 


属性 的 描述 ， 仓 库 管 理 员 只 管 根据 货物 存 取 单据 上 描述 的 房间 号 段 来 将 对 应 的 货物 取出 或 
者 存 入 ， 而 不 管 这 些 货物 是 什么 ， 有 多 少 。 

所 以 ， 每 个 门派 要 有 一 个 理 货 员 ， 这 个 理 货 员 知 道 什么 货 应 该 去 哪些 房间 提取 ， 以 及 
有 多 少 个 空 闪 房间 。 他 自己 保留 了 一 个 房间 使 用 情况 图 ， 每 当 本 门派 需要 提取 什么 货物 ， 
理 货 员 就 根据 这 个 对 应 图 计算 出 货物 对 应 的 存储 房间 ， 然 后 填写 武当 仓库 货物 存 取 单 交 给 
仓库 管理 员 ， 管 理 员 将 对 应 房间 中 的 所 有 货物 交 给 理 货 员 ， 理 货 员 在 将 货物 整理 好 后 交 给 
本 门派 使 用 。 存 货 的 过 程 也 类 似 ， 理 货 员 记 录 好 货物 要 存 入 的 房间 ， 然 后 填写 货物 存 取 单 ， 
将 存 取 单 和 货物 交 给 仓库 管理 员 。 管 理 员 根 据 房间 的 号 码 将 货物 依次 放 入 对 应 房间 。 值 得 
说 明 的 是 ， 货 物 存 取 单 上 的 房间 必须 是 连续 的 ， 不 允许 断 开 存放 。 连 续 的 房间 数量 最 大 是 
128 个 ， 超 过 128 个 房间 的 货物 ， 就 需要 填写 多 张 货物 存 取 单 了 ， 如 图 10.4 所 示 。 

武当 瓜 董 天 天 研究 着 怎么 从 现 有 的 资源 中 ， 榨 取 最 后 一 滴 利 渔 。 他 经 过 调查 ， 发 现 各 
门派 都 养 着 一 个 理 货 员 。 瓜 董 心 想 其 他 门派 一 定 也 很 头疼 ， 能 少 养 人 就 少 养 和 信 。 这 天 晚上 ， 
反复 琢磨 ， 他 终于 想到 一 个 绝招 。 由 于 各 门派 目前 都 养 着 一 个 理 货 员 ， 他 们 要 付 劳 务 费 。 
如 果 用 武当 的 人 来 充当 理 货 员 ， 卖 服务 给 各 门派 。 而 每 个 门派 都 会 付 一 份 劳务 费 给 我 ， 而 
我 只 需要 付 一 份 工资 给 理 货 员 就 可 以 了 。 真 是 一 本 万 利 啊 ! 

另外 ， 由 于 江湖 政府 换届 时 ， 瓜 董 没有 搞 好 关系 ， 使 武当 每 月 需要 向 江湖 政府 缴纳 高 
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。 瓜 董 决 定 抛弃 高 速 公路 ， 


额 的 高 速 路 使 用 费 ， 这 让 一 向 以 节省 成 本 著称 的 瓜 董 苦 不 堪 言 
使 用 普通 公路 。 
武当 仓库 货物 存 取 单 2007 年 12H 2211 
"P ero wad 
库 区 编号 : r- ed 习 
要 存 取 的 起 始 房 间 编号 : 10000. = 
存 取 此 后 的 连续 房间 的 数量 : 128 
客户 签字 瘟 章 : 冬瓜 头 
ldem eere enu qup 
图 10.4 填 好 的 货 单 
值得 称赞 的 是 ， 瓜 董 不 是 个 爱面子 的 人 ， 他 为 了 节省 成 本 ， 可 以 不 惜 一 切 代价 。 他 亲 


自 把 微软 道 长 请 回 了 武当 ， 让 他 担任 仓库 理 货 大 总 管 职务 。 随 后 ， 扑 董 


联系 了 各 门 各 派 掌 


门人 ， 让 他 们 把 理 货 的 工作 外 包 给 武当 做 ， 劳 务 费 比 原来 有 所 优惠 。 各 门派 都 同意 了 。 


微软 道 长 手下 可 以 有 多 个 分 管 。 


各 个 门派 使 用 的 货物 记录 方式 并 不 相同 ， 大 部 分 门派 


使 用 的 是 微软 道 长 所 创立 的 NTFS 记录 方式 ， 而 有 些 则 使 用 的 是 少林 雷 牛 大 师 所 创 的 EXT 
格式 。 既 然 要 将 货物 记录 服务 全 部 外 包 给 武当 ， 那 么 微软 道 长 无 疑 要 将 所 有 这 些 门 派 使 用 
的 记录 方式 都 实现 ， 从 而 为 每 个 门派 服务 。 微 软 道 长 遂 发 布告 示 ， 广 招 天 下 贤士 来 任职 分 
管 职务 , 每 个 分 管 管理 其 各 自 的 货物 记录 方式 。 图 10.5 和 图 10.6 为 改制 之 后 的 仓库 管理 模式 。 


少林 库 区 E 明教 库 区 义和团 库 区 
峨眉 库 区 "Sx 保山 好 汉 库 区 武当 库 区 
仓库 管理 员 仓库 管理 员 
各 种 记录 方式 的 理 货 员 
仓库 西门 仓库 东 门 
普通 公路 
/ | | \ 
/ \ | | N 
/ | | | N 
通 往 各 个 门派 


贺 10.5_ 改 制 之 后 的 仓库 架构 


2. 改制 之 后 的 仓库 架构 


武当 仓库 经 过 这 样 的 改造 之 后 ， 功 能 更 加 强大 了 。 人 惟一 不 足 的 是 为 了 节省 成 本 将 原本 


高 成 本 的 高 速 公 路 蔡 换 成 了 普通 公路 。 


原来 的 单据 显然 不 适合 仓库 当前 的 运作 模式 了 , 仓库 的 货物 存 取 单 也 改版 了 , 如 图 10.7 


所 示 。 
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LUN1 LUN2 LUN3 LUN4 
LUNS LUNG LUN7 LUN8 
卷 管理 模块 或 者 磁盘 控制 器 卷 管理 模块 或 者 磁盘 控制 器 |] 
各 种 文件 系统 处 理 迎 钼 


接口 1 接口 2 
以 太 网 交换 机 
T T 
| | 
/ | | | 
/ | 
/ | | 
通 往 各 个 主机 
图 10.6 改制 之 后 的 后 端 存储 网 络 架构 
武当 企 库 货物 存 取 单 (V2.0) 2007 年 12) 22H 
Am GRO oux gj 
需要 存 取 的 货物 类 别 ;: MRR | 
RNR HE: 冬瓜 本 
要 存 取 的 货物 质 最， 128 千克 


KERER: A 


AULA. MAN RENTAR, FANERA TUSWEAREN 


Bl: 改制 之 后 的 货 单 

从 武当 仓库 整改 之 后 的 新 单据 中 可 以 发 现 ， 现 在 各 个 门派 只 要 告诉 武当 仓库 的 理 货 员 
需要 什么 货物 及 多 少数 量 就 可 以 了 ， 完 全 不 用 记录 这 些 货物 实际 放 到 了 哪个 房间 ， 在 哪里 

怎么 去 这 些 内 容 。 计 算 这 些 复 杂 的 对 应 关系 的 工作 完全 移交 给 了 武当 仓库 理 货 员 来 做 。 
理 货 员 计算 好 之 后 ， 生 成 提货 /存货 单 ， 交 给 库 管 员 ， 直 接 去 对 应 房间 提 / 存 货物 。 理 货 员 
与 库 管 员 之 间 的 交互 ， 速 度 快 了 很 多 ， 因 为 完全 是 在 仓库 内 部 进行 通信 了 ， 不 需要 跨越 组 
慢 的 公路 交通 系统 。 

经 过 实践 ， 瓜 董 的 这 套 做 法 还 真 取得 了 显著 的 成 效 ， 各 门派 无 须 雇用 理 货 员 ， 无 须 文 
付 昂 贵 的 高 速 费 ， 节 省 了 成 本 。 同 时 ， 瓜 董 也 发 了 财 。 不 过 惟一 不 足 的 地 方 就 是 用 普通 公 
路 进行 货运 的 速度 ， 各 门派 不 太 满意 。 但 是 相对 于 成 本 大 大 地 降低 和 便捷 带 来 的 好 处 ， 各 
门派 也 只 有 牺牲 速度 了 。 


10.1.2 双管齐下 


但 是 有 的 仓库 租用 者 对 这 种 方案 并 没有 兴趣 ， 他 们 不 但 追求 速度 ， 而 且 情 愿 用 自己 的 
理 货 员 ， 也 不 相信 仓库 提供 的 理 货 员 。 这 种 客户 得 罪 不 起 ， 那 么 就 给 他 单独 的 政策 ， 还 是 
采用 原来 的 方式 使 用 仓库 ， 和 新 方式 互 不 影响 。 在 仓库 前 面 开辟 了 新 的 道路 去 接 入 高 速 枢 
纽 。 这 样 就 满足 了 两 种 不 同 的 需求 ， 如 图 10.8 和 图 10.9 所 示 。 
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微软 老道 在 吸取 瓜 董 的 思想 之 后 ， 终 于 创立 了 自己 的 理论 。 武 当 
卷 ， 一 个 大 的 磁盘 阵列 。 它 可 以 划分 出 多 个 LUN 供 多 个 使 用 者 使 用 。 
自己 的 文件 系统 ， 因 为 这 个 LUN 只 是 一 个 卷 设 备 ， 只 提供 了 不 计 其 数 


少林 库 区 KHER 明教 库 区 义和团 库 区 
MUR pe DIT 梁山 好 汉 库 区 武当 库 区 
仓库 管理 员 仓库 管理 员 

各 种 记录 货物 方式 的 理 货 员 
仓库 西门 仓库 东 门 CENTI 
普通 公路 duct 
tg / [| 
/ MI a 
/ | MI 
通 往 不 m 1 
成 本 优先 的 门派 ki 
图 10.8 旁 路 传统 访问 
LUN1 LUN2 LUNS LUN4 
LUNS LUN6 LUN7 LUN8 
SLTZTEDTULT SATUMAA] 
ERAD PEST 
I 
以 太 网 接口 1| | 以 太 网 接口 2 FC 接口 


以 太 网 交换 机 
J\I] 


B9 xaxd adus 
1013 万 物 归 一 一 一 网 络 文件 系统 


于 怎么 存放 货物 。 需 要 
做 货物 记录 一 样 。 


的 仓库 就 像 一 个 大 的 
而 每 个 使 用 者 必须 有 
的 房间 存放 货物 。 至 


由 使 用 者 自己 决定 和 管理 ， 也 就 是 用 文件 系统 来 管理 卷 ， 像 理 货 员 


微软 老道 把 瓜 董 的 思想 用 在 了 存储 上 ， 他 把 文件 系统 的 功能 从 使 用 者 处 迁移 到 了 磁盘 


阵列 之 上 , 让 磁盘 阵列 自己 管理 存储 空间 。 而 对 外 提供 统一 
使 得 使 用 者 不 用 再 记录 某 某 文件 和 卷 上 扇 区 或 者 通 块 的 对 应 关系 ， 
的 集中 式 文 件 系统 模块 处 理 。 使 用 者 只 需 通过 
长 度 是 多 少 就 可 以 了 。 有 具体 存 取 数 据 的 过 程 ， 
受 数 据 就 可 以 了 。 同 样 ， 在 存 文 件 的 时 候 ， 使 用 者 只 需 告 
一 些 文件 名 、 长 度 、 哪 个 目录 下 等 信息 就 可 以 了 ， 至 于 文件 存 到 卷 的 哪些 空余 扇 区 完全 


盘 阵 上 的 文件 系统 逻辑 来 处 理 ， 使 用 者 不 必 关 心 。 


12381 


的 用 户 接口 (货物 存 取 单 据 v2.0), 
这 个 工作 统统 由 盘 阵 上 
网 络 告诉 这 个 文件 系统 需要 存 取 什么 文件 ， 

由 集中 式 文件 系统 来 做 ， 使 用 者 只 要 等 待 接 
诉 文件 系统 要 存 那 些 数据 ， 提 供 


它 可 
据 量 


于 一 
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位 于 盘 阵 上 的 集中 式 文件 系统 得 益 于 包 交 换 网 络 ， 可 以 同时 处 理 多 个 使 用 者 的 请 求 。 
以 给 每 个 使 用 者 提供 各 自 的 文件 夹 目录 ， 并 且 可 以 为 这 些 目录 限定 允许 存放 的 最 大 数 
。 总 之 ， 文 件 系 统 可 以 实现 的 任何 功能 都 可 以 在 盘 阵 上 实现 。 

网 络 文件 系统 


使 用 者 如 何 与 盘 阵 上 的 集中 式 文件 系统 进行 交互 呢 ? 当然 是 通过 网 络 来 传递 数据 。 由 
直 以 来 的 习惯 ,以 太 网 加 TCP/IP 成 为 了 首选 的 网 络 方式 。 除 了 底层 传输 网 络 ， 还 必须 


定义 


意思 


上 层 的 应 用 逻辑 。 
针对 上 层 罗 辑 , 微软 定义 了 自己 的 一 套 规范 , 叫做 CIFS(Common Internet File System), 
是 Internet 范围 的 FS。Linux 和 UNIX 系统 使 用 了 另 一 种 方式 ， 称 为 NFS(Network File 


System]， 这 些 上 层 协议 都 是 利用 TCP/IP 协 ir 的 。 


在 网 
件 系统 
行 。 


以 上 描述 的 模型 统称 为 “网 络 文件 系统 ”。 这 种 文件 系统 逻辑 不 是 在 本 地 运行 ， 而 是 

o E 运行 ， 使 用 者 通过 外 部 网 络 将 读 写 文件 的 信息 传递 给 运行 在 远 端的 文 
是 调用 远程 的 文件 系统 模块 ， 而 不 是 在 本 地 内 存 中 调用 文件 系统 的 API 来 进 

RUBRI MEE 调用 式 文 件 系 统 ， 也 就 是 RPC FS(Remote Procedure Call 


File System). 


也 搬 
而 网 


相对 于 SAN 来 说 ， 这 种 网 络 文件 系统 不 仅仅 磁盘 或 卷 在 远程 节点 上 ， 连 文件 系统 功能 
运 到 了 远程 节点 上 。 本 地 文件 系统 可 以 直接 通过 主板 上 的 导线 访问 内 存 来 调用 其 功能 。 
络 文 件 系 统 只 能 通过 网 络 适配器 上 连接 的 网 线 而 不 是 主板 上 的 导线 来 访问 远 端 的 文件 
功能 。 

网 络 文件 系统 在 网 络 上 传递 的 是 些 什么 内 容 呢 ? 下 面 我 们 用 抓 包 的 方式 分 析 一 下 。 

1) CIFS 协议 网 络 包 分 析 

在 某 个 用 CIFS 访问 方式 的 目录 下 新 建 一 个 文本 文档 ， 然 后 将 它 删除 。 此 过 程 中 抓 取 网 


络 流量 。 在 CIFS 方式 下 ， 仅 仅 上 述 两 个 动作 ， 就 引发 了 网 络 上 数 百 个 包 的 流量 (如 图 10.10 


所 示 


)， 可 见 CIFS 是 一 个 开销 非常 大 的 NAS 协议 。 这 里 就 不 一 一 分 析 每 个 包 了 。 


性 


v : 

NT create Andx Response, FID: Ox035d, FID: Ox035d 

AT rans Reguest, AT IOCIL NETWORK FILE SYSTEN Functfon:OMOClO, Fl 

AT Trans Response, FID: Ox035d, NT 

NT Trans Request, KT IOCTL METWORK FILE. SVSTEM Function:0x0019, ri 
e TID: Ox035d, NT IOCTL 


Query File gasic info, path: 


dose rro 

Stin Panc ton Sx002a, FID: 0x03: 
Tab oxoiie AT loci. trrOr STANS INVALID.) 
[23 


E £10: oxost 
PETRUS. FALSO PI 


302 12.836713 
3o 


q4351282 812383223832 23 61 2280322222301 


圆 10.10 CIFS 协议 交互 的 数据 包 


2) NFS 协议 网 络 包 分 析 
在 一 台 Linux 客户 端 上 使 用 NFSv3 来 Mount 一 台 NFS 服务 器 上 的 某 个 目录 到 本 地 的 
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/mnt 目录 下 。 进 入 这 个 目录 ， 然 后 用 “touch a” 命 令 来 创建 一 个 名 为 “a” 的 文件 ， 然 后 
执行 “via”， 进 入 编辑 模式 ， 不 做 任何 修改 ， 退 出 ， 之 后 用 “rm a” 命 令 来 删除 这 个 文件 。 
其 间 抓 取 网 络 上 的 流量 。 


10.128.132.45 是 NES 客户 端的 IP 地 址 ，10.128.132.175 是 NES 服务 器 端的 IP 
地 址 。 分 析 结 果 已 经 去 除了 不 必要 的 TCP 包 以 及 TCP_ACK 等 包 。 


图 10.11 显示 的 是 这 个 过 程 中 网 络 上 双方 所 交互 的 主要 数据 包 。 


H11 NFS 方式 下 网 络 上 的 数据 包 


RAH, NFS 协议 的 开销 远 远 小 于 CIFS 协议 。 完 成 相似 动作 ，NFS 只 需要 交互 十 几 
个 包 即 可 。 下 面 来 分 析 每 个 包 的 作用 。 

11 Framel( 如 图 10.12 所 示 ): 客户 端 在 创建 文件 之 前 ， 首 先 做 了 一 次 lookup 操作 ， 
来 查找 当前 目录 中 是 否 已 经 有 同名 文件 ， 如 果 有 ， 则 拒绝 创建 。 图 中 的 DH 表示 
Directory Handle， 是 一 个 32 字 节 长 的 字段 ， 这 个 值 用 来 指 代 目录 名 称 ， 在 第 一 
次 访问 某 个 目录 时 ，NFS 服务 端 会 动态 分 配 这 个 值 ， 将 其 通知 给 客户 端 ， 随 后 的 
访问 请 求 中 ， 客 户 端 将 使 用 这 个 值 而 不 是 目录 名 称 来 向 NFS 服务 端 发 起 针对 这 个 
目录 的 请 求 。 


图 中 DH 值 的 hash 值 为 0x98f8d6bb， 为 了 表示 方便 ， 抓 包 软件 将 其 hash 成 一 
个 4 字 节 的 值 ， 这 个 hash 值 并 不 是 存在 于 网 络 包 中 的 。 本 例 中 ，/mnt 目录 被 指 
54 44 DH 值 的 hash 值 就 是 0x98f8d6bb。 


轩 10.12 客户 端的 Lookup 请 求 


2] Frame2( 如 图 10.13 所 示 ): 为 NFS 服务 端 对 Framel 的 回应 。 通过 “ERR_NOENT” 
可 以 判断 出 当前 目录 并 没有 名 为 “a” 的 文件 。 
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G attributes Directory mode:0777 uid:0 gid:0 
Type: Directory (2) 


i rdev: 0,0 
fsid: Ox000000000397ffb4 

field: 6 

@ atine: Aug 13, 2008 17:44:33.832463000 
time: Aug 13, 2008 17:44:31.558634000 
w ctine: Aug 13, 2008 17:44:31.358634000 


H1013 Lookup 请 求 的 回应 
3】 Frame4( 如 图 10.14 所 示 ): 客户 端 随即 发 起 了 “Create Call”， 创 建 “a” 文 件 。 


FH alu 
& atime: don't change 


Bl.14 客户 端的 Create 请 求 


4] Frame5( 如 图 10.15 所 示 ): NFS 服务 端 对 客户 端 Frame4 的 回应 ， 创 建成 功 ， 服 务 

端 返回 File Handle 的 hash 值 为 : 0xf03ce91c，FH(File Handle) 与 DH 一 样 ， 在 数 

据 包 中 实际 上 也 为 一 个 32 字 节 长 的 字段 ， 为 了 表示 方便 ， 抓 包 软件 将 其 hash 成 

-个 4 字 节 的 值 。 随 后 的 交互 中 客户 端 不 会 用 文件 名 来 向 服务 端 请 求 操作 ， 而 全 
部 用 这 个 File Handle 来 指 代 。 


图 10.15 Create 请 求 的 回应 


5] Frame6( 如 图 10.16 Biz): 文件 “a” 创 建成 功 之 后 ， 出 于 保险 起 见 ， 应 用 程序 一 
般 都 会 紧 接着 查询 一 下 文件 属性 ， 顺 便 确 认 文 件 是 否 创建 成 功 。“GetAttr Call" 
就 是 用 来 查询 文件 属性 用 的 一 种 RPC call。 图 中 可 以 看 到 对 应 FH 值 为 0xf03ce91c， 
NFS 服务 端 收 到 这 个 值 就 会 自动 对 应 成 文件 “a”。 
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016 客户 端的 GetAttr 请 求 


6] Frame7( 如 图 10.17 所 示 ): NFS 服务 端 对 Frame6 的 回应 。 包 中 可 以 看 到 文件 的 
umask 访问 权限 以 及 atime, mtime, ctime 属性 。 


Bl.17 GetAttr 请 求 的 回应 


7】 Frame8( 如 图 10.18 所 示 ): 紧 接着 NFS 客户 端 发 起 了 一 个 查询 /mnt 目录 属性 的 请 
求 。 因 为 Handle 的 值 为 0x98f8d6bb, 所 以 可 以 判断 这 个 GetAttr Call 是 针对 /mnt 
目录 的 。 


E018 客户 端 针对 /mnt 目录 的 GetAttr 请 求 


Weply Directory mode:0777 51d50 016:0 


rode:0777 vid:0 gid:0 


[0.19 针对 GetAttr 请 求 的 回应 


9] Frame10( 如 图 10.20 所 示 ): NFS 客户 端 发 起 一 个 在 /mnt 目录 中 查找 文件 “a” 的 
请 求 。 这 里 由 于 是 查找 操作 ， 客 户 端 会 假设 不 知道 “a” 文 件 的 FH 值 ， 而 只 知道 
/mnt 目录 的 DH 值 ， 所 以 文件 名 “a” 使 用 的 就 是 ASCI 码 的 “a”。 

10】Frame11( 如 图 10.21 所 示 ): NFS 服务 端 根据 Frame10 中 请 求 的 回应 找到 这 个 文 
fk, FH 值 是 Oxf03ce91c, 


12421 


第 10 B -x8z——Das. SAN 和 NAS 


[1020 客户 端 的 Lookup 请 求 


CE Source an EC 
30 0.000927 10.125.132.45 10 128.132.175 [ST 


is Frame 11 (310 bytes on wire, 310 bytes captured) 
(s Ethernet II, Sre: NetworkA 06:0a:ee (00:0:98:06:0a:66), Ost: Ibw 24:32:b0 (O0:1a:64:24:32:b0) 
'à Internet protocol, src: 10.128.132.175 (10.128. 132.175), Ost: 10.128.132.45 (10.128.132.45) 

è Remote Procedure Call, Type:Reply XID:Oxeif9fbn S 


Bl02: 针对 Lookup 请 求 的 回应 
111 Framel12( 如 图 10.22 所 示 ]: NFS 客户 端 发 起 一 个 SetAttr Call 的 请 求 , 这 个 请 求 的 
目的 是 为 了 改变 文件 属性 。 可 以 看 到 客户 端 请 求 将 文件 的 atime 和 mtime 改 为 服 
务 端 当前 的 系统 时 间 。 


ee (00:20:98:08:0a206) 
IS (10. 128.132.175) 
(2049), seq: 757, ack: A73, Len: 168 


图 10.22 客户 端的 SetAttr 请 求 


121 Frame13( 如 图 10.23 所 示 ): 对 Frame12 的 回应 。 可 以 看 到 atime、ctime 在 之 前 
和 之 后 的 不 同 ， 当 然 ， 时 间 差 别 都 在 微妙 级 ， 因 为 这 一 连 串 的 请 求 其 实 是 在 很 短 
的 时 间 里 发 出 去 并 得 到 应 答 的 。 


图 10.23 针对 SetAttr 请 求 的 回应 
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13] Framel15( 如 图 10.24 所 示 ]: 由 于 在 客户 端 执行 了 “rm a” 的 命令 ， 所 以 客户 端 发 
起 一 个 对 /mnt 目录 的 访问 请 求 。 其 实 客户 端 在 抓 包 期 间 一 直 处 于 /mnt 目录 中 ， 
至 于 为 何 要 重新 发 起 Access 请 求 ， 与 具体 应 用 程序 的 代码 有 关 ， 可 能 开发 者 为 了 
确认 /mnt 目录 的 DH 值 没 有 过 期 ， 所 以 重新 试探 访问 。 


s Dessin N- 


图 10.24 客户 端 针对 /mnt 目录 的 Access 请 求 


141 Framel16( 如 图 10.25 所 示 ): NFS 服务 端 对 Frame15 的 回应 。 


eme E Destination 


图 10.25 针对 Access 请 求 的 回应 
151 Frame18( 如 图 10.26 所 示 ): 此 时 ， 客 户 端 由 于 输入 了 “rm a” 命 令 ， 所 以 客户 端 
首先 要 查询 一 下 文件 “a” 的 权限 ， 所 以 客户 端 发 起 一 个 GetAttr 的 请 求 来 查询 文 
件 “a” 的 权限 。 


oue Dean EEC 


1026 客户 端 GetAttr 请 求 


16] Frame19( 如 图 10.27 Brzr): NFS 服务 端 对 Frame18 的 回应 。 

17】Frame20( 如 图 10.28 所 示 ): NFS 客户 端 发 起 对 文件 “a” 的 Access 请 求 。 至 于 为 
何在 删除 文件 之 前 要 发 起 Access 请 求 ， 与 编码 习惯 有 关 。 

181 Frame21( 如 图 10.29 所 示 ): NFS 服务 端 对 Frame20 的 回应 。 

19] Frame23( 如 图 10.30 所 示 ): NFS 客户 端 发 起 Remove 请 求 。 可 以 看 到 Remove 请 
求 中 并 没有 使 用 FH， 而 是 直接 使 用 了 文件 名 。 

20] Frame24( 如 图 10.31 所 示 ): NFS 服务 端 对 Frame23 的 回应 。 
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B 10.31 针对 Remove 请 求 的 回应 
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可 以 看 到 ， 基 于 NAS 的 数据 访问 ， 客 户 端 并 不 关心 文件 存放 在 磁盘 的 哪些 扇 区 ， 这 些 
NAS 服务 端 处 理 , 客户 端 向 NAS 设备 发 送 的 只 有 各 种 文件 操作 请 求 以 及 实际 的 


文件 流 式 数据 。 大 家 可 以 在 本 书 第 12 章 第 4 节 看 到 有 关 ISCSI 的 抓 包 分 析 ， 可 以 做 一 下 对 
比 ， 两 者 交互 的 语言 完全 不 同 。 


10.1.4 E & 4 EI——NAS(Network Attached Storage 网 络 附加 存储 ) 
人 们 把 这 种 带 有 集中 式 文 件 系统 功能 的 盘 阵 ， 叫 做 网 络 附加 存储 (Network Attached 


Storage, NAS). 


件 系 统 ， 而 且 对 外 提供 访问 其 文件 系统 的 接口 (如 NEFS、CIFS 等 )， 它 就 是 一 台 


B 不 一 定 是 盘 阵 ， 一 台 普通 的 主机 就 可 以 做 成 NAS， 只 要 它 自己 有 磁盘 和 文 
Go 


TENAS. 'ÉJ]49 Windows 文件 共享 服务 器 就 是 利用 CIFS 作为 调用 接口 协议 的 


NAS 设备 。 一 般 来 说 NAS 其 实 就 是 处 于 以 太 网 上 的 一 台 利 用 NFS、CIFS 等 网 
络 文件 系统 的 文件 共享 服务 器 。 至 于 将 来 会 不 会 有 FC 网 络 上 的 文件 提供 者 ， 
也 就 是 FC 网 络 上 的 NAS， 就 要 看 是 否 有 人 尝试 了 。 


1. SAN 和 NAS 的 区 别 


Di Th 


i 说 过 ，SAN 是 一 个 网 络 上 的 磁盘 ，NAS 是 一 个 网 络 上 的 文件 系统 。 


r SAN 的 定义 ， 即 “存储 区 域 网 络 ”，SAN 其 实 只 是 一 个 网 络 ， 但 是 
Go 


这 个 网 络 内 包含 着 各 种 各 样 的 元 素 ， 主 机 、 适 配器 、 网 络 交 换 机 、 磁 盘 阵 列 前 


钙 - 磺 端 、 盘 阵 后 端 、 磁 盘 等 。 应 该 说 ，SAN 是 一 个 最 大 的 涵盖 ， 它 涵盖 了 一 切 后 端 
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存储 相关 的 内 容 。 所 以 从 这 个 角度 来 看 ，SAN 包含 了 NAS， 因 为 NAS 的 意思 
是 “网 络 附加 存储 ”， 它 说 的 是 一 种 网 络 存储 方式 ， 这 么 它 就 没有 理由 不 属于 
SAN 的 范畴 。 所 以 ， 我 认为 SAN 包含 NAS。 

长 时 间 以 来 ， 人 们 都 用 SAN 来 特 指 FC， 特 指 远 端的 磁盘 。 那 么 ， 好 的 ， 假 设 
我 设计 出 一 种 基于 FC 网 络 的 NAS, 此 时 SAN 代表 什么 呢 ? 会 发 生 滑稽 的 矛盾 。 
但 是 ,似乎 还 真 想 不 出 一 种 更 简便 更 直观 的 叫 法 来 称呼 “FC 网 络 上 的 磁盘 ”这 
个 事物 。 到 此 我 也 陷入 定义 的 洲 涡 了 ， 所 以 我 们 最 好 还 是 入 乡 随 俗 ， 本 书 之 后 
的 文字 中 ， 就 把 FC 网 络 上 的 磁盘 叫做 SAN， 把 以 太 网 络 上 的 文件 系统 称 为 
NAS。 这 里 就 是 提 一 下 ， 不 要 被 表象 所 迷惑 。 


2. FTP 服务 器 为 什么 不 属于 NAS 


我 们 必须 明白 什么 是 网 络 文件 系统 ， 网 络 文件 系统 与 本 地 文件 系统 的 惟一 区 别 ， 就 
传输 方式 从 主板 上 的 导线 变 成 了 以 太 网 络 ， 其 他 方面 包括 调用 的 方式 对 于 上 层 应 用 来 说 
有 任何 改变 。 
这 就 意味 着 一旦 用 户 挂 载 了 一 个 网 络 文件 系统 目录 到 本 地 ， 那 么 他 就 可 以 像 使 
地 文件 系统 一 样 使 用 网 络 文件 系统 。 


在 


Windows 系统 中 ， 可 以 直接 双击 共享 目录 中 的 程序 将 其 在 本 机 运行 (实际 上 是 先 


Ao k 


通 
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过 以 太 网 将 这 个 程序 文件 传输 到 本 地 的 缓存 ， 然 后 才 在 本 地 执行 ， 而 不 是 在 远 端 执行 )]。 而 
FTP 无 法 做 到 这 一 点 ，FTP 不 能 实现 诸如 挂 载 等 动作 ， 它 不 是 实时 的 。 只 有 通过 FTP 将 文 
件 传输 到 本 地 的 某 个 目录 之 后 才能 执行 ,而 且 这 个 程序 执行 需要 的 所 有 文件 都 必须 在 本 地 。 
而 网 络 文件 系统 则 不 然 ， 即 便 某 个 本 地 执行 的 程序 需要 访问 远 端 的 某 些 文件 ， 它 也 可 
以 直接 访问 远 端的 文件 ， 不 需要 预先 将 数据 复制 到 本 地 再 访问 。 所 以 ，FTP、HTTP 和 TFTP 
等 文件 服务 并 不 属于 网 络 文件 系统 ， 也 不 属于 NAS. 

3. 普通 台式 机 可 以 充当 NAS 4 

完全 可 以 ， 只 要 具备 NAS 的 特性 ， 就 可 以 充当 NAS。 

NAS 必须 具备 的 物理 条 件 如 下 。 

e 不 管用 什么 方式 ，NAS 必须 可 以 访问 卷 或 者 物理 磁盘 。 

€ NAS 必须 具有 接 入 以 太 网 的 能 力 ， 也 就 是 必须 具备 以 太 网 卡 。 

普通 台式 机 具备 了 这 两 个 条 件 ， 就 可 以 充当 NAS。 我 们 只 要 编写 程序 从 磁盘 提取 或 者 
存放 数据 ， 记 录 好 这 些 数据 的 组 织 方 法 ， 然 后 通过 网 络 文件 系统 协议 规定 的 格式 进行 发 送 
或 接收 ， 就 可 以 实现 NAS 的 功能 。 或 者 可 以 直接 在 操作 系统 上 编程 ， 直 接 利用 操作 系统 已 
经 实现 好 的 文件 系统 和 网 络 适配器 驱动 程序 ， 所 要 做 的 只 是 利用 操作 系统 提供 的 足够 简单 
的 API 编写 网 络 文件 系统 的 高 层 协议 逻辑 即 可 。 


10.2 ”龙争虎斗 


1. SAN 快 还 是 NAS 快 

很 多 人 都 在 问 ， 到 底 SAN 快 还 是 NAS R? 要 解答 这 个 问题 ， 方 法 非常 简单 ， 和 百 米 赛 
跑 一 样 ， 只 要 计算 起 点 到 终点 的 距离 、 耗 时 、 开 销 就 可 以 了 。 

SAN 的 路 径 图 如 图 10.32 所 示 。 


NAS 与 SAN 之 争 


E 
Feb | 
mag P 


s à : Baa 
sme 
由 TET PER C LUN) 


服务 器 机 箱 [5127] 


[032 SAN 方式 路 径 图 


NAS 的 路 径 图 如 图 10.33 所 示 。 

显然 ，NAS 架构 的 路 径 在 虚拟 目录 层 和 文件 系统 层 通信 的 时 候 ， 用 以 太 网 络 和 TCP/IP 
协议 代 奉 了 内 存 ， 这 样 做 不 但 增加 了 大 量 的 CPU 指令 周期 [TCP/IP 逻辑 和 以 太 网 卡 驱 动 程 
序 ), 而 且 使 用 了 低速 传输 介质 (内 存 速度 要 比 以 太 网 快 得 多 )]。 而 SAN 方式 下 , 路 径 中 比 NAS 
方式 多 了 一 次 FC 访问 过 程 ， 但 是 FC 的 逻辑 大 部 分 都 由 适 配 卡 上 的 硬件 完成 ， 增 加 不 了 多 
少 CPU 开销 , 而 且 FC 访问 的 速度 比 以 太 网 高 。 所 以 我 们 很 容易 的 得 出 结论 。 如 果 后 端 磁盘 
HAMM, MARIE NAS 使 用 快 于 内 存 的 网 络 方式 与 主机 通信 ， 和 否则 其 速度 永远 无 法 超越 
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SAN 架构 。 但 是 如 果 后 端 磁盘 有 瓶颈 ， 那 么 NAS 用 网 络 代替 内 存 的 方法 产生 的 性 能 降低 就 
可 以 忽略 。 比 如 ， 在 大 量 随机 小 块 10、 缓 存 命中 率 极 低 的 环境 下 ， 后 端 磁盘 系统 寻 道 瓶颈 
达到 最 大 ， 此 时 前 端的 10 指令 都 会 处 于 等 待 状态 ， 所 以 就 算 路 径 首 端 速度 再 快 ， 也 无 济 于 


那么 
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事 。 此 时 ，NAS 系统 不 但 不 比 SAN 慢 , 而 且 由 于 其 优化 的 并 发 10 设计 和 基于 文件 访问 而 不 
是 簇 块 访问 的 特性 ， 反 而 可 能 比 SAN 性 能 高 。 
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[10.33 NAS 方式 路 径 图 

既然 NAS 一 般 情 况 下 不 比 SAN 快 ,为 何 要 让 NAS 诞生 呢 ? 既然 NAS 不 如 SAN 速度 快 ， 
它 为 何 要 存在 呢 ? 具体 原因 如 下 。 
e  NAS 的 成 本 比 SAN 低 很 多 。 前端 只 使 用 以 太 网 接口 即 可 ，FC 适 配 卡 以 及 交换 机 的 
成 本 相对 以 太 网 卡 和 以 太 交 换 机 来 说 是 非常 高 的 。 
e NAS 可 以 解放 主机 服务 器 上 的 CPU 和 内 存 资源 。 因 为 文件 系统 的 逻辑 是 要 靠 CPU 
4 运算 来 完成 的 ， 同 时 文件 系统 还 需要 占用 大 量 主 机 内 存 用 作 缓 在。 所 以 ，NAS 
适合 用 于 CPU 密集 的 应 用 环境 。 


o ”由 于 基于 以 太 网 的 TCP/IP 传输 数据 , 所 以 NAS 可 扩展 性 很 强 。 只 要 有 IP 的 地 方 ， 
NAS 就 可 以 提供 服务 ， 且 容易 部 署 和 配置 。 
e NAS 设备 一 般 都 可 以 提供 多 种 协议 访问 数据 。 网 络 文件 系统 只 是 其 提供 的 一 种 接 


而 已 ， 还 有 诸如 HTTP. FTP 等 协议 方式 。 而 SAN 只 能 使 用 SCSI 协议 访问 。 

e NAS 可 以 在 一 台 盘 阵 上 实现 多 台 客 户 端的 共享 访问 ， 包 括 同时 访问 某 个 目录 或 文 
件 。 而 SAN 方式 下 ， 除 非 所 有 的 客户 端 都 安装 了 专门 的 集群 管理 系统 或 集群 文件 
系统 模块 ， 否 则 不 能 将 某 个 LUN 共享 ， 强 制 共享 将 会 损毁 数据 。 

e ”经 过 特别 优化 的 NAS 系统 ， 可 以 同时 并 发 处 理 大 量 客户 端的 请 求 ， 提 供 比 SAN 方 
式 更 方便 的 访问 方法 。 

e. 台 主 机 可 以 同时 挂 接 NFS 上 的 目录 ， 那 么 相当 于 减少 了 整个 系统 中 文件 系统 的 
处 理 流程 ， 由 原来 的 多 个 并 行 处 理 转化 成 了 NFS 上 的 单一 实例 ， 简 化 了 系统 匈 

2. SAN 好 还 是 NAS 好 

关于 10 密集 和 CPU 密集 说 明 如 下 。 

e CPU 密集 : 指 的 是 某 种 应 用 极其 耗费 CPU 资源 ， 其 程序 内 部 逻辑 复杂 ， 而 且 碎 
盘 访 问 量 不 高 。 如 超频 爱好 者 常用 的 CPU 测试 工具 就 是 这 种 应 用 ， 这 种 程序 在 
行 的 时 候 ， 根 本 不 用 读 取 磁 盘 上 的 数据 ， 只 是 在 程序 载 入 的 时 候 ， 读 入 一 点 点 
序数 据 而 已 。 进 程 运行 之 后 便 会 使 CPU 的 核心 处 于 全 速 状 态 ， 这 会 造成 其 他 进 
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在 同一 时 间 内 只 获得 很 少 的 执行 时 间 ， 影 响 了 其 他 程序 的 性 能 。 在 必要 的 时 候 ， 
可 以 将 多 台 机 器 组 成 集群 来 运行 这 种 程序 。 
e ORE: 指 的 是 某 种 应 用 程序 的 内 部 逻辑 并 不 复杂 ， 耗 费 的 CPU 资源 不 多 ， 但 是 
要 随时 存 取 硬盘 上 的 数据 。 比 如 FTP 服务 器 之 类 程序 就 是 这 种 。 
e 10 和 CPU 同时 密集 : 这 种 应 用 程序 简直 就 是 梦 帮 。 为 了 获得 高 性 能 ， 大 部 分 这 类 
程序 都 不 适合 用 单 台 机 器 运行 ， 必 须 组 成 集群 系统 来 运行 这 种 应 用 程序 ， 包 括 前 
端 运算 节点 的 集群 和 后 端 存储 节点 的 集群 。 

显然 ，NAS 对 于 大 块 顺 序 10 密集 的 环境 ， 要 比 SAN 慢 一 大 截 ， 原 因 是 积累 效应 。 经 过 
大 量 10 积累 之 后 ， 总 体 差别 就 显现 出 来 了 。 不 过 ， 如 果 要 使 用 10G 以 太 网 这 种 高 速 网 络 ， 
无 疑 要 选用 NAS， 因 为 底层 链 路 的 速度 毕竟 是 目前 NAS 的 根本 瓶 开 。 此 外 ， 如 果 是 高 并 发 
随机 小 块 10 环境 或 者 共享 访问 文件 的 环境 ,NAS 会 表现 出 很 强 的 相对 性 能 。 如 果 SAN 主机 
上 的 文件 系统 碎片 比较 多 ， 那 么 读 写 某 个 文件 时 使 会 产生 随机 小 块 1 0， 而 NAS 自身 文件 系 
统 会 有 很 多 优化 设计 ， 碎 片 相对 少 。CPU 密集 的 应 用 可 以 考虑 使 用 NAS. 

SAN 与 NAS 各 有 各 的 优点 和 缺点 ， 需 要 根据 不 同 的 环境 和 需求 来 综合 考虑 。 

3. 与 SAN 设备 的 通信 过 程 

对 于 SAN 方式 来 说 , 应 用 程序 必须 通过 运行 在 服务 器 本 机 或 者 NAS 设备 上 的 文件 系统 
与 磁盘 阵列 对 话 。 应 用 程序 对 本 机 文件 系统 [或 NAS) 说 : "m6, jid. TdRJU/mnt/SAN H 
录 下 的 SAN.txt 文件 传 到 我 的 缓冲 区 。” 文 件 系统 开始 计算 SAN.txt 文件 占用 的 磁盘 扇 区 的 
LBA 地 址 ， 计 算 好 之 后 向 SAN 磁盘 阵列 说 (用 SCSI 语言 ]:: “N EM], JEMA LBA10000 JT 
始 之 后 的 128 个 扇 区 内 容 全 部 传送 给 我 ! ” 

SAN 磁盘 阵列 接收 到 这 个 请 求 之 后 ， 便 从 它 自身 的 众多 磁盘 中 提取 数据 ,通过 FC 网 络 
传送 给 运行 着 文件 系统 程序 的 节点 (服务 器 主机 或 NAS 设备 ]。 文件 系统 接受 到 扇 区 内 容 之 
后 ， 根 据 文件 系统 记录 截 掉 扇 区 多 余 的 部 分 ， 将 整理 后 的 数据 放 入 请 求 这 个 数据 的 应 用 程 
序 的 缓冲 区 。 

4. 与 NAS 设备 的 通信 过 程 

应 用 程序 通过 操作 系统 的 虚拟 目录 层 直 接 与 NAS 设备 对 话 : “ 嗨 ， 兄 弟 ， 帮 我 把 
/mnt/NAS 目录 下 的 NAS.txt 文件 传 过 来 。” 或 “ 嗨 ， 兄 弟 ， 帮 我 把 /mnt/NAS 目录 下 的 
NAS.txt 文件 的 前 1024 字 节 传递 过 来 。” 这 些 话 被 封装 成 TCP/IP 数据 包 ， 通 过 以 太 网 传递 
到 NAS 设备 上 。NAS 接 到 这 个 请 求 之 后 , 立即 用 自己 的 文件 系统 (NTFS、JFS2、EXT2、EXT3 
等 ] 计 算 NAS.txt 文件 都 占用 了 磁盘 的 哪些 扇 区 ， 然 后 从 自己 的 磁盘 上 用 ATA 语言 或 者 SCSI 
语言 向 对 应 的 磁盘 存 取 数 据 [ 或 自己 安装 FC 适 配 卡 ， 从 SAN 存储 设备 上 存 取 数据 )。 

显然 ，NAS 将 文件 系统 逻辑 搬出 了 主机 服务 器 ， 成 为 了 一 个 单独 的 文件 系统 逻辑 运 
行者 。 

5. 文件 提供 者 

NAS 可 以 看 作 是 一 个 Filer。 Filer 这 个 词 是 著名 NAS 设备 厂商 NetApp 对 其 NAS 产品 的 
通俗 称呼 。 它 专门 处 理 文件 系统 逻辑 及 其 下 面 各 层 的 逻辑 ， 从 而 解放 了 服务 器 主机 。 服 务 
器 主机 上 不 必 运 行文 件 系统 人 逻辑， 甚至 也 不 用 运行 磁盘 卷 逻 辑 ， 只 需要 运行 目录 层 逻 辑 
(UNIX 系统 上 VFS 层 、Windows 系统 上 的 盘 符 及 目录 ) 即 可 。 把 底层 的 模块 全 部 交 由 一 个 独 
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立 的 设备 来 完成 ， 这 样 就 节约 了 服务 器 主机 的 CPU 资源 和 内 存 资源 ， 从 而 可 以 专心 的 处 理 
应 用 层 逻 辑 了 。 
NAS 网 关 就 是 这 样 一 种 思想 。NAS 网 关 其 实 就 是 一 台 运 行文 件 系统 逻辑 和 卷 逻 辑 的 设 
备 ， 可 以 把 它 想象 成 一 个 泵 ， 这 个 泵 可 以 从 后 端 接收 一 种 格式 (以 LBA 地 址 为 语言 的 指令 条 
数据 格式 )， 经 过 处 理 后 从 前 端 用 另 一 种 格式 (以 文件 系统 为 语言 的 指令 和 数据 格式 ] 发 送出 
去 ， 或 执行 反 向 的 过 程 。 可 以 把 这 个 泵 接 入 任何 符合 条 件 的 网 络 中 ， 以 实现 它 的 功能 。 我 
们 可 以 称 它 为 文件 系统 泵 , 或 者 Filer。 我 们 把 SAN 设备 称 为 Disker( 专 门 处理 磁 盘 卷 逻辑 )， 
把 服务 器 主机 称 为 Applicationer( 专 门 处 理应 用 逻辑 )。 如 果 某 个 设备 集成 了 Filer 和 Disker 
的 功能 ， 并 将 其 放 入 了 一 个 机 箱 或 者 机 柜 ， 那 么 这 个 设备 就 是 一 个 独立 的 NAS 设备 。 如 果 
某 个 设备 仅仅 实现 了 Filer， 而 Disker 是 另外 的 独立 设备 ， 这 个 只 实现 了 Filer 的 设备 就 称 
为 NAS 网 关 或 NAS d£. 
图 10.34 显示 了 这 个 泵 接 入 网 络 之 后 发 生 的 变化 。 


服务 器 主机 


文件 系统 逻 猎 | 
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SCSI 指 令 ) 


FC 网 络 


SANI EP SAN GLA 8] 


10.34 NAS R 

然而 , 目前 NAS 的 用 途 并 不 如 SAN 广泛 , 主要 原因 是 因为 NAS 的 前 端 接口 几乎 都 是 干 
兆 以 太 网 接口 ， 而 千 兆 以 太 网 的 速度 也 不 过 100MB/s， 除 去 开销 之 后 所 剩 无 几 。 而 SAN 设 
备 的 前 端 接口 目前 普遍 都 是 4Gbys 的 速度 , 可 以 提供 400MB/s 的 带宽 。FC 现在 已 有 8Gb/s 
速率 的 接口 出 现 , 而 10Gb/s 以 太 网 也 初 露 端倪 。 不久 的 将 来 , NAS 必定 会 发 起 男 一 轮 进攻 。 


10.3 


人 们 将 最 原始 的 存储 架构 称 为 DAS， 即 Direct(Dedicate)Attached Storage( 直 接连 接 存 
储 )， 意 思 是 指 存储 设备 只 用 于 与 独立 的 一 台 主 机 服务 器 连接 ， 其 他 主机 不 能 使 用 这 个 存储 
设备 。 如 PC 里 的 磁盘 或 上 只 有 一 个 外 部 SCSI 接口 的 JBOD 都 属于 DAS 架构 。 

纵 观 武 当 仓库 的 改革 过 程 ， 恰 恰 正 是 一 个 从 DAS( 仅 供 自己 使 用 ， 到 SAN( 出 租 仓库 给 
其 他 租户 使 用 )， 再 到 NAS( 集 中 式 理 货 服务 外 包 ] 的 过 程 。 

到 此 ，DAS、SAN、NAS 形成 了 存储 架构 的 三 大 阵营 ， 且 各 有 其 适用 条 件 ， 形 成 了 三 足 


但 是 ， 大 家 一 定 要 牢记 ，SAN(Storage Area Network) 是 一 种 网 络 ， 而 不 是 某 种 设备 。 
只 要 是 专门 用 来 向 服务 器 传输 数据 的 网 络 都 可 以 被 称 为 SAN。 所 以 ，NAS 设备 使 用 以 太 网 


络 向 主机 提供 文件 级 别 的 数据 访问 ， 那 么 以 太 网 络 就 是 SAN. 
SAN 设备 多 ， 所 以 人 们 习惯 的 称 FC SAN 架构 为 SAN。 我 们 也 顺从 习惯 ， 但 是 一 定 


不 如 FC 
要 明白 其 中 的 门道 。 
10.4 最终 
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由 于 在 高 端 领域 NAS 的 使 


一 一 将 文件 系统 语言 承载 于 FC 网 络 传输 


既然 SCSI 语言 及 数据 可 以 用 FC 协议 传递 ， 文 件 系统 语言 可 以 月 
件 系统 语言 能 不 能 用 FC 传递 呢 ? 再 者 SCSI 语言 能 不 能 通过 以 太 网 来 传递 呢 ? 
而 且 后 者 已 经 被 实现 并 被 广泛 应 用 了 ， 本 书 第 12 章 讲 的 就 是 它 。 在 
件 系统 语言 承载 于 FC 网 络 传输 这 个 想法 没有 被 实现 ， 或 者 说 有 人 实现 了 但 是 没有 听 说 。 


4 


以 太 网 传递 ， 那 么 文 
完全 可 以 ， 


元 工 
组 合 中 ， 就 差 将 文 


jf 


现在 来 看 前 者 。 试 想 一 下 ， 如 果 用 FC 协议 传递 文件 系统 语言 和 数据 而 不 是 磁盘 卷 语言 


及 其 数据 ， 那 么 开销 会 小 很 多 。 文 件 系统 语言 毕竟 是 比较 上 层 和 高 级 的 
来 说 ， 它 非常 简单 。 
读 写 某 个 文件 ， 如 果 用 高 层 语言 只 需要 描述 关于 这 个 文件 的 信息 即 


[s 


磁盘 卷 语 


语言 ， 相 对 于 底层 


层 


可 。 但 是 如 果 使 用 


低级 语言 ， 可 能 要 发 送 很 多 的 语句 。 如 果 这 个 文件 在 磁盘 上 形成 了 很 多 碎片 的 话 ， 发 送 的 
10 指令 将 不 计 其 数 。 这 就 像 C 语言 被 编译 器 编译 成 汇编 语句 一 样 ， 文 件 系统 语言 是 高 级 语 
言 ， 比 如 “将 C 盘 下 C.txt 文件 传送 过 来 ”这 一 句 高 级 语言 ， 会 被 翻译 成 更 低级 的 多 条 SCSI 
语言 。 利 用 比 内 存 总 线 速度 慢 得 多 的 FC 网 络 来 传送 这 些 低级 语言 , 无 疑 是 非常 浪费 资源 的 。 


低级 语言 就 应 该 在 
ii 
来 传递 
或 者 本 
然后 这 个 NAS 设备 
可 以 既 保 证 降低 了 月 


4， 后 者 速 


也 磁盘 )” 这 三 


9 存 中 传递 而 不 是 外 部 低速 网 络 上 ， 这 样 才能 达到 性 能 最 大 化 。 


用 FC 协议 与 服务 器 


务 器 的 开销 ， 又 保 
也许 受 限于 技术 或 者 商业 和 市 场 的 


普遍 的 架构 是 文件 系统 和 磁盘 控制 器 驱动 程序 都 运行 在 应 用 服务 器 主机 上 。 文 件 
各 卷发 送 的 请 求 是 通过 内 存 来 传递 
度 显然 比 前 者 慢 很 多 。 
个 部 件 ， 整 体 搬 型 


的 ， 而 主机 向 磁盘 (LUN) 发 送 的 请 求 是 通过 FC 网 络 
如 果 将 “文件 系统 、 磁 盘 控 制 器 和 磁盘 (SAN d DE 

应 用 服务 器 主机 外 部 ， 成 为 一 个 独立 的 NAS 系统 。 

主机 通信 ，FC 协议 上 承载 的 是 文件 系统 语言 ， 这 就 

证 了 数据 传输 速度 。 

限制 , File system( 或 File) over FC(FC 网 络 文件 系统 ) 


始终 没有 被 提出 或 开发 出 来 。 不 过 在 10G 以 太 网 普及 之 后 , 相信 FC 设备 也 会 因为 高 成 本 高 


专用 化 、 兼 容 性 等 


问 
的 模式 来 传送 文件 系统 指令 ， 


题 逐 渐 被 淘汰 。 目 


新 市 场 上 的 NAS 设备 普遍 采用 以 太 网 加 上 TCP/IP 


我 们 可 以 称 这 种 架构 为 “File system over Ethernet(FSoE)" . 


关于 协议 之 间 相 互 杂交 的 论题 ， 在 本 书后 面 会 详细 讨论 。 


10.5 ”长 路 漫漫 一 一 系统 架构 进化 过 程 


下 面 总 结 一 下 系统 架构 进化 过 程 中 


的 9 个 阶段 。 
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10.5.1 第 一 阶段 : 全 整合 阶段 
图 10.35 是 一 个 最 原始 的 普通 服务 器 的 架构 ， 所 有 部 件 和 模块 都 在 一 个 服务 器 机 箱 中 。 


这 属于 DAS 架构 ， 因 为 主机 机 箱 内 的 磁盘 只 被 本 机 使 用 。 

fai EE 
4 — Roth 

v [1 H 
EOS: " - z Baie B sesia 
多 n aus TET BERG QU) ic 
A y 一 

服务 器 机 箱 


[10.35 全 整合 阶段 
1052 $ WB: 磁盘 外 置 阶段 


图 10.36 所 示 的 架构 ， 是 将 磁盘 置 于 服务 器 机 箱 外 部 的 情况 。 这 种 架构 依然 属于 DAS 
架构 ， 因 为 存储 系统 只 被 一 台 主机 使 用 。 
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服务 器 机 箱 | 


[10.36 磁盘 外 置 阶段 


1053 第 三 阶段 : 外 部 独立 磁盘 阵列 阶段 
图 10.37 是 服务 器 主机 通过 普通 SCSI 线 缆 连 接 外 部 独立 磁盘 阵列 的 情况 。 这 种 简单 的 


SCSI 接口 盘 阵 只 能 供 一 台 或 者 几 台 (如 果盘 阵 提供 多 个 外 部 SCSI 接口 的 话 ) 主 机 接 入 ， 称 不 
上 彻底 的 网 络 化 ， 但 可 以 被 称 为 SAN， 因 为 这 种 架构 已 经 开始 显现 网 络 化 萌芽 了 。 
popu MIDI 
n Lm) we Carra) see un) 
ld 
服务 器 机 箱 磁盘 阵列 


37 外 部 独立 磁盘 阵列 阶段 
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10.5.4 第 四 阶段 : 网 络 化 独立 磁盘 阵列 阶段 

图 10.38 是 一 台 服 务 器 用 FC 网 络 连 接 FC 接口 磁盘 阵列 的 情况 。 图 中 磁盘 阵列 真正 成 
为 包 交 换 网 络 上 的 一 个 节点 ， 可 同时 被 多 个 其 他 节点 访问 ， 是 向 彻底 网 络 化 进化 的 里 程 碑 。 
这 种 架构 是 彻 彻底 底 的 SAN. 架构 。 


r i Y LATET EERUN 
服务 器 机 箱 
图 10.38 网 络 化 独立 磁盘 阵列 阶段 
10.5.5 第 五 阶段 : 瘦 服 务 器 主机 、 独 立 NAS 阶段 


[miS g 


图 10.39 中 ， 服 务 器 主机 用 以 太 网 与 NAS 设备 进行 通信 从 而 存储 数据 。 在 瘦 服 务 器 阶 
段 ， 文 件 系 统 之 下 的 所 有 层次 模块 位 移 到 了 外 部 独立 设备 中 。 主 机 得 到 了 彻底 的 解放 ， 专 
门 处 理 业务 逻辑 ， 而 不 必 花 费 太 多 资源 去 处 理 底层 系统 逻辑 。 
最 终 通 道 
i rens t€ 内 在 通信 saam g » 
i pun "oa | 
上 机 服务 器 机 条 NAS 设 各 机 箱 | 
SCSI 总 线 或 者 
FC-AL 网 络 通 信 


B 10.39 _ 瘦 服 务 器 独立 NAS 阶段 


1056 第 六 阶段 :全 分 离 式 架构 


在 NAS 设备 的 后 端 可 以 用 包含 在 自己 机 箱 内 的 硬盘 ， 也 可 以 用 并 行 SCSI 来 连接 磁盘 ， 
还 可 以 用 FC 协议 来 连接 SAN 盘 阵 来 获得 LUN(NAS 网 关 )。 在 这 个 阶段 中 , 所 有 部 件 彻底 地 
分 离 了 ， 每 个 部 件 都 各 伺 其 职 ， 中 间 通 过 不 同 的 网 络 方式 通信 ， 前 端 用 以 太 网 ， 后 端 用 FC 
网 ， 如 图 10.40 所 示 。 
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机关 生生 
n UAR p Om 
x 
p| 内 存 通信 通信 rims 
用 
加 E? (LUND E j 
i gem 5 
主机 服务 器 机 条 NAS 设 备 机 箱 \ SANE HU 
文件 系统 语言 SCSl 癌 战 或 者 
Fabric 网 络 通信 
《磁盘 郑 语 言 ) 


[1040 全 分 离 阶段 


105.7 第 七 阶段 : 能 量 积聚 ， 混 沌 阶段 


在 图 10.41 的 环境 中 ， 既 有 纯 SAN 的 磁盘 阵列 ， 来 利用 自己 机 箱 或 扩展 柜 内 的 磁盘 ， 
又 有 NAS 网 关 设 备 ， 不 但 可 以 利用 本 地 磁盘 ， 还 可 以 向 SAN 磁盘 阵列 “租赁 ”若干 LUN 
卷 。 另 外 还 有 一 台 多 协议 磁盘 阵列 ， 它 既 可 以 向 外 提供 FC 协议 的 连接 方式 (承载 磁盘 卷 语 
T). 又 可 以 提供 以 太 网 的 连接 方式 (承载 文件 系统 语言 )， 这 种 设备 是 SAN 与 NAS 融合 的 结 
果 。 服 务 器 可 以 选择 直接 用 磁盘 卷 语言 访问 SAN 磁盘 阵列 上 的 LUN， 用 运行 在 服务 器 上 的 
文件 系统 程序 管理 磁盘 卷 ， 也 可 以 选择 直接 通过 以 太 网 络 访问 NAS 设备 上 的 目录 ， 用 文件 
系统 语言 向 NAS 发 送 指令 。 

这 个 架构 最 终 就 是 一 个 混沌 的 架构 ， 既 有 纯 SAN 和 纯 NAS， 又 有 融合 的 SAN 和 NAS. 


第 八 阶段 也 是 目前 IT 系统 所 应 用 的 架构 。 
一。 服务 黑 通过 这 条 路 入 访问 NASN x 
一 一 / | 
| J/ , i 
[ 以 太 网 交换 设备 
| 
" m iio 控制 器 NAS 网 关 过 
5 ^5 E ul 
器 器 Abiit 
) 
SAN 网 络 交换 设备 f 
| L 
u | [ reu SANI UA H] sanear | 
HET 
= 多 协议 多 功能 感 朋 阵列 


B4: 高 能 混沌 阶段 


10.5.8 AARE: 收缩 阶段 


当 机 械 硬盘 被 芯片 所 取代 ， 并 且 大 规模 集成 电路 技术 不 断 地 发 展 ， 操 作 系统 中 的 所 有 
底层 模块 均 用 专用 硬件 电路 实现 。CPU 所 做 的 仅仅 是 进行 业务 逻辑 计算 。 外 部 接口 已 经 过 
渡 到 了 全 部 使 用 无 线 网 络 进行 通信 ， 包 括 连接 显示 器 (或 许 已 经 被 3D 眼镜 所 取代 )。 
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目前 , Intel 公司 已 经 在 其 CPU 中 集成 了 显示 芯片 , 使 计算 机 不 再 需要 加 装 独立 的 显卡 ， 
也 不 用 占用 主板 上 的 空间 来 集成 显示 芯片 。Sun 公司 将 多 个 万 兆 以 太 网 芯片 集成 在 了 最 新 的 
CPU 上 。Bluearc 公司 的 存储 产品 更 是 已 经 将 整个 操作 系统 的 所 有 逻辑 都 做 到 了 FPGA 芯片 
中 。 这 些 案例 很 好 的 证 明了 IT 架构 正在 收缩 之 中 。 图 10.42 所 示 为 收缩 阶段 系统 架构 示 
意图 。 


CPU 阵列 内 存 RON 服务 器 机 箱 


区 件 系 统 罗 辑 处 理 艺 睛 


作 系统 核心 迎 缉 处 理 芯 厂 


各 种 网 络 协议 处 理 芯片 卷 虚拟 层 硬件 芯片 
无 线 网 络 适 配 板 高 容量 固态 芯片 存储 阵列 


042 收缩 阶段 


10.5.9 第 九 阶段 ， RP E 


HFR, HAJ IT 系统 会 节约 大 量 空间 和 电力 能 量 。 随 着 集成 电路 技术 发 
展 到 一 定 程度 之 后 ， 甚 至 可 以 将 整个 系统 集成 于 一 个 微小 的 芯片 中 ， 即 所 谓 的 System On 
Chip(SOC). IT 系统 将 南 缩 到 这 个 芯片 中 ， 如 图 10.43 所 示 。 

纵 观 这 9 个 阶段 ， 从 全 整合 阶段 (占用 很 大 空间 和 资源 )， 到 
拥 缩 阶段 ( 极 小 的 空间 极 高 的 质量 )， 这 正 是 宇宙 发 展演 化 的 规律 。 

在 一 个 极 大 的 空间 中 包含 了 众多 物质 ， 然 后 通过 不 断 演化 ， 最 终 
拥 缩 到 一 个 小 空间 内 ， 同 样 包含 了 极 大 的 质量 。 P 

到 此 ，SAN 已 经 不 仅仅 限于 通过 FC 网 络 传递 SCSI 指令 的 架 
MIT. SAN 的 概念 ， 既 然 是 “存储 区 域 网 络 ” 的 意思 ， 那 么 就 应 
该 泛 指 参与 主机 服务 器 后 端 存储 系统 的 所 有 部 件 , 甚至 包括 NAS, [ios azam 
我 们 可 以 将 NAS 看 作 SAN 的 一 个 分 支架 构 。 

SAN 在 IT 系统 架构 进化 到 第 九 阶段 之 前 还 会 继续 存在 。 在 第 九 阶 段 ，SAN 的 概念 或 许 
会 被 赋予 另外 的 意义 。 


10.6 泰山 北斗 


NetApp 公司 掌握 了 全 球 最 先进 的 NAS 方面 的 相关 技术 , 它 的 FAS 系列 产品 统治 了 NAS 
市 场 的 大 部 江山 。FAS 系列 中 的 所 有 产品 均 运 行 Data ONTAP 操作 系统 ， 这 是 NetApp 专门 
发 的 针对 NAS 的 操作 系统 。 
既然 是 NAS， 其 内 部 的 文件 系统 层 肯 定 是 一 个 功能 强大 而 稳定 的 层次 。ONTAP 系统 中 
的 文件 系统 名 为 WAFL， 这 是 一 个 充满 个 性 的 文件 系统 。 
NetApp 自称 其 存储 产品 为 “Filer”， 下 面 就 来 看 看 Filer 的 四 把 杀手 铜 。 


NetApp 的 NAS 产品 
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10.6.1 WAFL 配合 RAID 4 


Write Anywhere Filesystem Layout(WAFL) 是 NetApp 公司 开发 的 一 种 文件 系统 。 这 个 
文件 系统 最 大 的 特点 ， 也 是 其 他 所 有 文件 系统 都 没有 实现 的 特点 ， 就 是 它 能 按照 RAID 4 的 
喜好 来 向 RAID 4 卷 写 数据 。RAID 4 由 于 其 独立 校 验 盘 的 设计 ， 导 致 它 只 能 接受 顺序 的 写 入 
lO 而 不 能 并 发 ， 所 以 它 对 于 其 他 厂家 的 盘 阵 来 说 完全 就 是 一 个 灾 星 ， 没 有 人 敢 用 ， 也 没有 

意 用 。 然 而 NetApp 偏偏 采用 了 它 ， 而 且 通 过 WAFL 的 调教 ，RAID 4 在 FAS 产品 上 发 
挥 出 了 很 好 的 性 能 。WARFL 是 怎么 调教 RAID 4 的 呢 ? 

与 其 说 是 WAFL 调教 RAID 4， 不 如 说 是 RAID 4 3535. WAFL 就 范 。 
RAID 4 再 不 好 也 有 可 取 的 地 方 , 如 果 10 写 入 有 很 大 几率 是 整 条 写 的 形式 , 那么 RAID 4 
会 表现 得 像 RAID 0 一 样 良 好 。 不 仅仅 是 RAID 4, 任何 校 验 型 的 RAID, 如 RAID 5、RAID 3， 
只 要 是 整 条 写 ， 便 会 产生 极 高 的 性 能 。 


f 关于 整 条 写 的 概念 ， 请 参考 本 书 第 4 章 的 内 容 。 


既然 校 验 型 RAID 最 喜欢 被 整 条 写 ， 那 么 就 不 妨 满足 这 个 要 求 。WAFL 就 是 这 么 被 设计 
出 来 的 。 

图 10.44 所 示 的 是 一 个 5 块 盘 组 成 的 RAID 4 J 
系统 。 条 带 大 小 20KB， 条 带 在 每 个 数据 盘 上 分 U^ Lm] e [el m] o] 
割 出 的 segment 大 小 为 4KB。 假 如 某 一 时 刻 应 用 — se [e] [e| je] e] [e] 
Hok WAFL 写 入 三 个 文件 ， 如 /tmp/filel ~ «sc | [et c2 e| |e "TNI 
/tmp/file2 和 /tmp/file3, 其 中 file1 大 小 为 4KB， 
file2 大 小 为 8KB，file3 大 小 为 4KB。 则 WAFL 辆 10.44_5 块 盘 组 成 的 RAID 系统 
便 会 计算 出 ， 如 果 将 这 三 个 文件 对 应 的 数据 写 到 
一 整 条 条 带 上 ， 就 构成 了 整 条 写 ， 性 能 得 到 了 提升 。 

HLL, WAFL 先 在 其 元 数据 中 做 好 记录 : /tmp/filel 对 应 数据 块 为 Al，/tmpy/file2 对 
应 数据 块 为 A2+A3, /tmp/file3 对 应 数据 块 为 A4。 然 后 将 这 三 个 文件 的 数据 合并 写 入 RAID. 
当然 ， 如 果 要 求 增加 高 并 发 度 ， 那 么 WAFL 也 可 以 将 同一 个 文件 对 应 的 一 定 长 度 的 块 写 入 
同一 个 硬盘 。 
实际 上 ， 文 件 系统 就 应 该 适 配 底层 的 特性 ， 只 有 这 样 才能 获得 最 优 的 性 能 。 普 通 文件 
系统 中 ,在 选取 空闲 块 写 入 数据 的 时 候 ， 并 没有 针对 底层 的 RAID 级 别 来 做 对 应 的 优化 。 而 
WAFL 中 有 一 个 专门 的 Write Allocation 模块 来 负责 优化 。WAFL 的 做 法 无 疑 对 文件 系统 的 
优化 起 到 了 领头 和 示范 作用 。 

以 上 只 是 简略 说 明 WAFL 的 思想 ， 实 际 操作 中 还 需要 考虑 诸如 元 数据 的 写 入 、 块 的 偏 

等 很 多 复杂 情况 。 
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10.6.20 Data ONTAP 利用 了 数据 库 管理 系统 的 设计 


我 们 知道 ， 数 据 库 管 理 系统 是 这 样 记录 日 志 的 : 在 某 时 刻 ， 数 据 库 管 理 系统 接收 到 应 
程序 的 SQL 更 新 语句 及 其 对 应 的 数据 , 在 将 这 些 数据 更 新 到 缓存 中 覆盖 原 有 数据 的 同时 ， 
将 这 个 操作 的 动作 以 及 对 应 的 数据 ， 以 日 志 的 形式 记录 到 位 于 内 存 的 日 志 缓冲 区 内 。 每 当 
应 用 程序 发 起 提交 Freins 寺 间 ， 缓 冲 区 内 的 日 志 就 会 被 写 入 到 磁盘 上 的 日 志 
文件 中 ， 以 防止 意外 掉 电 后 造成 的 数据 不 一 致 性 ， 同 时 将 缓存 中 更 新 过 的 数据 块 写 入 磁盘 。 
只 有 当日 志 被 确实 的 写 入 到 硬盘 上 的 日 志文 件 中 后 ， 数 据 库 管理 程序 才 会 对 上 层 应 用 返回 
执行 成 功 的 信号 。 
数据 系统 是 一 个 非常 复杂 的 系统 ， 也 是 一 个 对 数据 一 致 性 要 求 极 高 的 系统 ， 所 以 数据 
库 利 用 记录 操作 日 志 的 方式 来 保证 数据 一 pig aene 目前 普遍 使 用 ， 而 且 是 实际 效果 最 
好 的 方法 。NetApp 的 Data ONTAP 操作 系统 ， 就 是 利用 了 数据 库 这 种 设计 思想 ， 它 把 向 文 
i ee rile NACE 保存 ， 每 当日 志 被 保存 到 了 
NVRAM 中 ， 就 会 向 上 层 应 用 返回 写 入 成 功 信和 号。 

为 何 要 用 NVRAM 而 不 是 文件 来 保存 日 志 呢 ? 


10.6.3 利用 NVRAM 来 记录 操作 日 志 


数据 库 系统 完全 可 以 直接 将 操作 日 志 写 入 磁盘 ， 而 不 必 先 写 入 内 存 中 的 日 志 缓冲 区 ， 
耳 在 触发 条 件 下 将 日 志 写 入 磁盘 上 的 文件 。 然 而 这 么 做 会 严重 降低 性 能 ， 因 为 日 志 的 写 入 
是 非常 频繁 的 ， 且 必须 为 同步 写 入 。 如 果 每 条 日 志 记 录 都 写 入 磁盘 ， 则 由 于 磁盘 相对 于 内 
存 来 说 是 慢 速 10 设备 ， 所 以 会 造成 严重 的 10 瓶颈 。 所 以 必须 使 用 内 存 中 的 一 小 块 来 作为 
ABE. 

但 是 一 旦 系统 发 生意 外 掉 电 ， 则 内 存 中 的 日 志 还 没 来 得 及 保存 到 硬盘 就 会 丢失 。 在 数 
据 库 再 次 启动 之 后 ， 会 提取 硬盘 上 已 经 保存 的 日 志文 件 中 的 条 目 来 重 放 这 些 操 作 ， 对 于 没 
有 提交 的 操作 ， 进 行 回 滨 。 这 样 ， 就 保证 了 数据 的 一 致 性 。 
如 果 某 个 应 用 程序 频繁 的 进行 提交 操作 ， 则 日 志 绥 冲 区 的 日 志 便 会 被 频繁 写 入 磁盘 。 
在 这 种 情况 下 ， 日 志 缓存 就 起 不 到 多 少 作 用 了 。 幸 好 ， 对 于 很 多 需要 访问 数据 库 的 应 用 程 
这 来 说 ， 上 层 的 每 个 业务 操作 一 般 都 算 作 一 个 交易 ， 在 交易 尚未 完成 之 前 ， 程 序 是 不 会 发 
送 提 交 指 令 给 数据 库 系 统 的 ， 所 以 频繁 提交 发 生 的 频率 不 高 。 

然而 ， 上 层 应 用 向 文件 系统 中 写 数据 的 话 ， 每 个 请 求 都 是 一 次 完整 的 交易 。 如 果 对 每 
个 请 求 都 将 其 对 应 的 操作 日 志 写 入 磁盘 , 开销 就 会 很 大 。 所 以 NetApp 索性 利用 了 带电 池 保 
护 的 RAM 内 存 用 作 记 录 操 作 日 志 的 存储 空间 。 这 样 一 来 ， 不 但 日 志 写 入 的 速度 很 快 ， 而 且 
不 用 担心 意外 掉 电 。 有 了 这 种 电池 保护 的 RAMKA NVRAM 似乎 不 合适 ， 因 为 NVRAM 不 
昌 池 就 可 以 在 不 供电 的 情况 下 保存 数据 ， 而 NetApp 使 用 的 是 带电 池 保 护 的 RAM, FX 
姑且 称 其 为 NVRAM) 来 记录 操作 日 志 ， 只 要 日 志 被 成 功 存 入 了 这 个 RAM， 就 可 以 立即 通知 
上 层 写 入 成 功 。 

一 定 要 搞 清楚 日 志和 数据 缓存 的 区 别 。 日 志 只 是 记录 一 种 操作 动作 以 及 数据 内 容 ， 而 
不 是 实际 数据 块 ， 前 者 比 后 者 要 小 很 多 。 实 际 数据 块 保存 在 RAM 中 而 不 是 NVRAM 中 。 
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于 用 RAM 来 保存 日 志 ， 所 以 速度 超级 快 ， 可 以 一 次 接收 上 千 条 写 入 请 求 而 直接 向 上 
层 应 用 返回 成 功 信号 ， 待 RAM 半 满 或 每 10 秒 钟 的 时 候 ， 这 些 数据 由 WAFL 一 次 性 批量 连 
续 写 入 硬盘 ， 保 证 了 高 效率 。 这 也 是 NetApp 的 NAS 为 什么 相对 比较 快 的 一 个 原因 。 


10.8. WAFL 从 不 覆 写 数据 


每 当 NVRAM 中 的 日 志 占 用 了 整个 NVRAM 空间 的 一 半 或 每 10 秒 钟 也 可 能 是 其 他 的 某 
些 条 件 达 到 临界 值 的 时 候 , WAFL 便 会 将 所 有 缓存 在 内 存 缓冲 区 内 的 已 经 改写 的 数据 以 及 元 
数据 批量 写 入 硬盘 ， 同 时 清空 操作 日 志 ， 腾 出 空间 给 接 下 来 的 请 求 使 用 。 这 个 动作 叫做 
CheckPoint. 

WAFL 并 不 会 覆盖 掉 对 应 区 块 中 原来 的 数据 , 而 是 寻找 磁盘 上 的 空闲 块 来 存放 被 更 改 的 
块 。 也 就 是 说 ， 所 有 由 WAFL 写 入 的 数据 都 会 写 入 空闲 块 ， 而 不 是 覆盖 旧 块 。 另 外 ， 在 
CheckPoint 没有 发 生 的 时 候 , 或 者 数据 没有 全 部 被 Flush ZM, WAFL 从 来 不 会 写 入 任何 元 
数据 到 磁盘 。 

有 了 以 上 两 个 机 制 就 可 以 保证 在 CheckPoint 没 发 生 之 前 ， 磁 盘 上 的 元 数据 所 对 应 的 实 
际 数据 ， 仍 然 为 上 一 个 CheckPoint 时 候 的 状态 。 如 果 此 时 发 生 突然 断 电 等 故障 ， 虽 然 可 能 
有 新 数据 已 经 被 写 入 空闲 块 ， 但 是 元 数据 并 未 写 入 ， 所 以 磁盘 上 保存 的 元 数据 还 是 指向 旧 
块 (这 也 是 为 何 旧 块 从 来 不 会 被 WAFL 覆盖 的 原因 ], 数据 就 像 没 有 变化 一 样 , 根本 不 用 执行 
文件 系统 检查 这 种 耗 时 费力 的 工作 。 一 旦 CheckPoint 被 触发 ， 则 WAFL 先 将 缓存 中 的 所 有 
数据 写 入 磁盘 空闲 块 ， 最 后 才 将 元 数据 写 入 硬盘 。 一 旦 新 的 元 数据 写 入 了 硬盘 ， 则 新 元 数 
居 的 指针 均 指 到 了 方才 被 写 入 的 新 数据 块 ， 对 应 的 旧 数 据 块 则 变 为 空闲 块 (虽然 块 中 仍 有 数 
据 ， 但 是 已 经 没有 任何 指针 指向 它 )。 

这 个 特性 使 得 NetApp 的 快照 技术 水 到 渠 成 ， 且 性 能 良好 。 


10.7 初 露 锋 芒 一 一 BlueArc 公司 的 NAS 产品 


上 文中 所 述 的 IT 系统 架构 发 展 的 第 八 阶段 (收缩 阶段 )， 其 代表 就 是 软件 的 全 芯片 化 。 
这 些 芯片 不 同 于 CPU， 而 是 完全 的 应 用 四 辑 芯片 ， 比 如 ASIC 或 更 高 成 本 的 FPGA 和 CPLD. 
这 些 芯 片 对 于 专用 逻辑 的 运算 速度 远 高 于 CPU， 因 为 CPU 是 读 取 外 部 程序 代码 指令 流 来 执 
行 并 生成 结果 的 ， 而 专用 芯片 则 是 通过 读 入 原始 数据 信号 ， 在 经 过 内 部 逻辑 电路 之 后 直接 
生成 了 输出 信号 。 一 片 频 率 100MHz 的 FPGA 在 运行 专用 逻辑 的 时 候 速度 也 会 高 于 频率 几 
GHz 的 CPU。 图 10.45 所 示 的 为 CPU 的 处 理 流程 ， 而 图 10.46 所 示 的 是 FPGA 的 处 理 流程 。 
FPGA 芯片 的 频率 目前 已 经 可 以 超越 1GHz, 其 内 部 电路 也 已 经 可 以 达到 1000 万 门 。 其 
可 容纳 的 逻辑 更 多 更 复杂 ， 处 理 速 度 越 来 越 快 。 
目前 有 些 厂家 正在 尝试 利用 FPGA 来 取代 CPU. HF FPGA 可 重 构 计算 的 特性 ， 人 们 认 
识 到 许多 能 发 挥 其 特长 的 应 用 。 比 如 在 玩 《Crysis》 电 脑 游戏 时 ， 可 将 FPGA 配置 成 128 位 
的 高 性 能 3D 图 像 处 理 器 ， 当 需 要 听 高 保 真 环绕 立体 声 时 , 可 将 FPGA 配置 成 专用 的 DSP 处 
理 器 ; 在 高 层 网 络 交换 机 需要 支持 新 协议 时 ， 只 需 重新 配置 FPGA 而 不 必 更 改 任何 硬件 ; 在 
数字 电视 变更 解码 协议 时 ， 只 要 通过 网 络 下 载 数据 来 重新 配置 FPGA: 当 从 GSM 网 转 到 
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CDMA 网 时 ， 也 只 需 重新 配置 FPGA 而 不 必 更 换 手 机 了 。 


10.45 CPU 的 处 理 流程 


Clock Cycles — — — — — — —— — —e 
nnnnnnnnnnnnnnnnn.vew 


C 
9] 
图 10.46 FPGA 处 理 流 程 


同样 ， 存 储 产 品 公司 BlueArc 在 其 NAS 产品 Titan 系列 中 ,将 其 上 运行 的 所 有 软件 好 
辑 都 写 入 了 FPGA 中 。 其 产品 将 存储 系统 路 径 上 的 多 个 模块 也 分 别 做 成 了 可 插 拔 式 的 模块 ， 
包括 前 端 网 络 接口 模块 、 文 件 系统 模块 和 后 端 网 络 接口 模块 。 前 端 接口 是 面 对 客 户 端的 接 
， 文 件 系统 则 是 整个 系统 的 处 理 中 枢 ， 后 端 接口 则 是 连接 磁盘 扩展 柜 的 接口 。 每 个 模块 
上 均 有 多 个 FPGA 芯片 来 处 理 各 自 的 逻辑 。 图 10.47 显示 了 Titan 各 个 模块 之 间 的 生态 架 
构图 


图 10.48 为 Titan 产品 实物 图 。 后 面 有 四 个 揪 槽 模块， 中 间 两 个 为 文件 系统 模块 ， 最 上 
面 和 最 下 面 的 模块 分 别 为 前 端 网 络 模块 和 后 端 网 络 模块 。 


10.47 Titan 存储 产品 内 部 架构 示意 图 [2l 10.8 Titan 存储 产品 实物 图 


且 不 说 Titan 这 种 全 硬件 架构 是 否 成 熟 ,， 其 内 部 软件 是 否 兼容 性 良好 , 抛 开 这些 因 素 不 
谈 ， 这 种 架构 其 实 反应 的 是 一 种 趋势 ， 一 种 精神 。 
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在 老 祖宗 的 OSI 宝典 的 基础 上 ， 后 人 不 知 哪 位 大 侠 ， 创 立 了 自己 的 功夫 秘笈 ， 后 
广泛 流传 于 江湖 。 这 套 秘 徐 ， 就 是 大 名 鼎鼎 的 “以 太 网 和 TCP/IP 大 法 ”。 


大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


11.1. 共享 总 线 式 以 太 网 


如 何 让 多 台 PC 之 间 能 够 相互 连接 并 且 相互 发 送信 息 呢 ? 既然 说 到 独立 系统 之 间 的 互 
联 ， 那 就 可 以 参考 0SI 来 做 。 在 参考 OS 之 前 先 参 考 三 元 素 ， 即 连 起 来 、 找 目标 、 发 数据 。 


11.1.1 连 起 来 


“ 连 ” 这 个 动作 ， 包 括 了 0SI 的 物理 层 和 数据 链 路 层 。 首 先 要 找 一 种 连接 方式 将 所 有 
节点 连接 起 来 。 连 接 多 个 节点 最 简单 的 办 法 就 是 总 线 技术 。 总 线 就 是 一 个 公共 的 媒介 。 要 
交流 ， 就 必须 提供 交流 所 需 的 场所 ， 这 个 场所 就 是 总 线 。 将 总 线 想象 成 一 根 铜 导 线 ， 每 个 
节点 都 连接 到 这 条 线 上 。 这 样 每 个 节点 的 信号 ， 在 总 线 上 所 有 的 其 他 节点 都 会 感知 到 ， 因 
为 良 导体 上 的 电位 处 处 相等 。 

基于 这 个 总 线 模型 ， 早 期 的 以 太 网 是 使 用 集线器 (HUB) 将 每 台 PC 都 连接 到 它 的 一 个 
上 ， 所 有 这 些 接口 通过 集线器 里 面 的 中 继 电 路 连接 在 一 起 。 为 什么 需要 中 继 器 ， 为 什 
不 可 以 直接 物理 连接 在 一 起 呢 ? 使 用 中 继 器 的 主要 原因 有 两 个 。 第 一 ， 信 号 在 总 线 上 传 
受到 干扰 可 能 会 迅速 衰减 。 加 了 中 继 器 后 集线器 将 从 一 个 接口 收 到 的 bit 流 复制 到 每 个 
， 这 样 就 避免 了 信号 衰减 。 第 二 ， 中 继 器 可 以 防止 由 于 不 可 知 的 原因 ， 造 成 两 个 节点 
向 总 线 上 放置 信号 所 造成 的 短路 。 图 11.1 所 示 的 就 是 一 个 HUB 模型 。 

在 数据 链 路 层 ， 以 太 网 使 用 帧 的 形式 来 发 送 数据 流 。 上 层 的 数据 流 被 封装 成 一 个 个 


FERN 


E 


以 太 网 帧 ， 在 总 线 上 传播 。 

cm i 5 "EN - iC 
电位 相等 /—» N 
电位 相 il <| CC one ) 
N / 

MB 5 2 

Rs 冲突 域 nor d 
B1 HUB 模型 


11.1.2 WE 


为 了 区 分 总 线 上 的 每 个 节点 ， 每 个 节点 都 必须 具有 一 个 唯一 的 身份 标志 。 以 太 网 中 ， 
这 个 标志 被 称 作 “Media Access Control(MAC) ”地 址 ， 介 质 访问 地 址 ， 即 只 有 数据 帧 中 包含 
这 个 地 址 ， 总 线 介 质 上 拥有 这 个 地 址 的 接收 方才 知道 这 个 数据 帧 是 给 自己 的 ， 从 而 才 会 将 
其 保存 到 缓冲 区 内 。 实 际 上 ， 每 个 以 太 网 帧 中 都 包含 源 MAC 地 址 和 目的 MAC 地址。 
MAC 地 址 是 一 个 6 字 节 (48bit) 长 的 字段 ， 每 个 节点 的 网 卡 都 有 一 个 全 球 唯一 的 MAC 
也 址 ， 这 个 地 址 在 网 卡 出 广 时 候 被 固化 在 芯片 中 。 

以 太 网 就 是 利用 MAC 地 址 来 区 分 每 个 节点 的 。 
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11.1.3 ”发 数据 


既然 是 总 线 方式 联网 ， 那 么 每 个 节点 发 出 的 信号 ， 总 线 上 的 所 有 节点 都 会 感知 到 ， 并 
且 ， 同 一 时 刻 只 能 由 一 个 节点 的 信号 在 总 线 上 传递 ， 如 果 同 时 有 多 个 节点 都 向 总 线 上 传递 
信号 ， 则 各 路 信号 之 间 就 会 发 生 冲突 ， 比如， 节点 A 在 时 间 点 Tl 时 刻 向 总 线 上 放置 高 电位 
de nut sn Dr ge s sp et eed 
样 ， 就 形成 了 电流 通路 ， 一 方面 造成 短路 ， 缩 短 设备 寿命 ， 方面 总 线 上 的 其 他 节点 所 
a E AA EANET CIRCE TA HIER d EE: 

有 如 下 两 种 措施 可 以 防止 这 种 情况 的 发 生 。 

e ”集线器 中 的 中 继 电 路 ， 会 防止 由 于 恶意 破坏 或 者 其 他 不 可 知 的 程序 bug 所 导致 的 

信号 冲突 。 

e 在 协议 角度 ， 从 根本 上 杜绝 这 种 情况 的 发 生 。 

在 总 线 上 ， 每 个 节点 利用 载波 侦 听 机 制 [CSMA) 来 检测 当前 总 线 上 是 否 有 其 他 节点 的 信 
号 正在 传播 ， 一 旦 检测 到 信号 ， 则 暂时 不 发 送 缓冲 区 内 的 数据 帧 ， 并 不 断 地 侦 听 电路 上 的 
信号 ， 一 旦 发 现 总 线 空 闲 ， 则 立即 向 总 线 上 放置 信号 ， 声 明 要 使 用 总 线 ， 如 果 在 完全 相同 
的 时 刻 ， 另 一 个 节点 也 同样 放置 了 信号 ， 则 两 路 信号 会 发 生 冲 突 ， 两 个 节点 检测 到 冲突 后 ， 
会 撤销 声明 ， 继 续 回 到 侦 听 状态 ， 这 个 过 程 叫做 冲突 检测 (CD) 。 

但 两 个 节点 在 同一 时 刻 同时 发 出 信号 的 几率 很 小 ， 即 使 本 轮 声明 失败 ， 在 下 一 轮 争 抢 
声明 中 ， 某 个 节点 胜利 的 几率 是 很 大 的 ， 而 且 以 太 网 中 的 所 有 节点 的 优先 权 都 是 一 样 的 ， 
或 者 可 以 说 以 太 网 内 没有 优先 权 的 概念 ， 包 括 网 关 设 备 在 内 。 而 SCS 总 线 的 优先 级 最 高 ， 
因为 SCSI 协议 本 身 就 是 一 个 Poll 一 Response 型 的 协议 , SCSI 控制 器 要 顺序 寻找 总 线 上 的 除 
自身 之 外 的 所 有 其 他 节点 ， 它 的 优先 级 最 高 。 所 以 对 于 以 太 网 来 说 ， 完 全 不 必 担 心 某 个 节 
点 永远 也 抢 不 到 总 线 使 用 权 ( 俗 称 “ 总 线 俄 死 ”) 的 情况 。 

另外 ， 也 不 必 担 心 这 种 CSMA/CD 机 制 会 耗费 过 多 的 时 间 ， 由 于 这 种 机 制 不 是 靠 CPU 
执行 代码 来 实现 的 ， 而 完全 是 靠 电路 逻辑 执行 的 ， 所 以 速度 都 在 微 秒 级 ， 宏 观 上 不 会 感觉 
到 延迟 。 

如 果 一 条 总 线 上 的 节点 过 多 ， 则 发 生 冲 突 的 几率 就 越 大 ， 造 成 的 开销 和 延迟 也 越 大 。 
另 一 方面 节点 越 多 ， 每 个 节点 使 用 总 线 的 平均 时 间 也 就 会 降低 ， 宏 观 上 ， 也 就 造成 了 每 节 
点 的 可 用 带宽 降低 。 所 以 共享 总 线 方式 的 网 络 ， 可 接 入 的 节点 数量 是 有 限 的 。 

节点 取得 了 总 线 使 用 权 之 后 ， 便 开始 发 送 数据 帧 ， 也 就 是 将 数据 帧 的 bit 流转 换 成 电信 
号 ， 以 一 定 的 间隔 速度 放置 到 总 线 上 ， 对 于 10Mb/s 以 太 网 来 说 ， 每 隔 一 千 万 分 之 一 秒 ， 总 
线 上 的 信号 就 被 放置 一 次 ， 直 到 整个 数据 帧 被 传播 完毕 ， 总 线 空间 ， 然 后 节点 再 发 起 新 一 
轮 的 CSMA/CD 过 程 。 

在 一 个 节点 向 总 线 上 传播 数据 的 同时 ， 所 有 其 他 节点 都 会 将 总 线 上 正在 传播 的 信号 保 
存 到 各 自 的 缓冲 区 内 ， 形 成 一 帧 一 帧 的 数据 。 也 就 是 说 ， 共 享 式 以 太 网 中 ， 任 何 一 个 节点 
所 发 送 的 数据 ， 其 他 所 有 节点 都 会 收 到 。 

这 岂 不 是 没有 隐私 可 言 了 么 ? 

的 确 , REE HUB 上 的 任何 一 个 节点 上 安装 一 个 抓 包 软件 , 就 可 以 抓 取 总 线 上 的 信和 号 
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看 到 任何 


比如 ， 


源 节点 发 送 到 任何 目的 节 


ifti 


e 
的 
过 
它 也 


也 址 。 


必要 浪费 资源 。 必 须发 明 一 个 机 制 来 改进 ， 网 桥 的 出 现 ， 初 


th 


自己 的 ， 
太 网 定义 了 一 种 特殊 的 MAC 地 址 , 这 个 地 址 
了 总 线 上 的 所 有 节点 ， 也 就 是 说 ， 如 果菜 个 数据 帧 中 的 目的 地 
则 所 有 接收 到 这 个 帧 的 节点 都 会 保存 起 来 并 提交 上 层 协 议 处 理 ， 


F( 源 MAC 地 
MAC 地 址 ， 与 
检测 源 MAC 地 
会 对 比 自己 的 MAC 与 帧 9 


点 的 数据 。 


节点 A 想 与 节点 B 通信 ， 节 点 B 怎么 知道 当前 总 线 上 的 数据 是 给 它 的 呢 ? 我们 
每 个 节点 都 有 一 个 MAC 地 址 ， 节 点 A 若 想 将 数据 传送 给 节点 B， 就 会 在 数据 帧 
的 特定 字段 填 入 节点 B 的 MAC 地 址 (目的 MAC 地 址 )， 并 且 在 特定 字段 填 入 节点 A 自己 
F)， 这 个 数据 包 被 所 有 人 收 到 ， 当 然 包 括 B 节点 。B 节点 检测 这 个 
自身 的 MAC 地 址 做 对 比 ， 如 果 相 配 ， 则 得 知 这 个 帧 是 给 自己 的 ， 


EEr, B 会 知道 这 个 帧 是 节点 A 给 的 。 而 节点 C 此 时 也 收 到 了 这 个 


ph 的 目的 MAC 字段 ， 发 现 不 


立即 将 其 丢弃 。 


的 所 有 48 位 


匹配 ， 所 以 知道 这 个 帧 不 是 


:的 值 都 为 1。 这 个 地 址 对 应 


11.2 ”网 桥 式 以 太 网 


放 面 描述 了 共享 总 线 型 以 太 网 

影响 。 
桥 

能 化 

Tende Er 
组 使 用 
另外 的 组 | 
一 个 讨 
入 相同 数目 的 节点 ， 但 是 性 能 才 


如 图 11.2 所 示 , 节点 A 与 B 在 总 线 1( 冲 突 域 1) 
与 B 通信 ， 则 只 会 在 总 线 1 上 冲突 ， 


这 样 ， 每 个 冲突 域 


也 有 多 个 接口 ， 外 观 甚至 和 HUB 一 样 ， 但 是 里 面 的 
4 东西 ， 不 像 HUB 一 样 ， 所 有 接口 复制 总 线 上 的 数据 。 
面 的 接口 分 了 很 多 组 ， 每 一 个 组 中 的 接口 都 在 


。 会 发 现 ， 


1 


总 线 1 


总 线 2 


B 12 him 


H, 总 线 1 


路 


上 是 这 个 特殊 的 MAC 地 址 ， 
而 被 这 个 地 址 称 为 广播 


-个 人 说 话 所 有 人 都 听 到 ， 这 不 安全 ， 也 没 
步 降低 了 这 个 问题 所 


"n 
T 


来 的 


I 入 了 逻辑 运算 电路 和 智 


一 条 独立 的 总 线 上 ， 不 同 的 
日 不同 的 总 线 。 也 就 是 说 ， 除 非 网 桥 转 发 过 去 ， 否 则 某 个 组 
扫 到 。 这 样 就 减 小 了 冲突 域 ， 相 当 于 本 来 10 个 人 的 小 组 ， 分 成 了 多 个 子 讨论 组 ， 
论 组 在 讨论 的 同时 ， 另 一 个 讨论 组 也 可 以 讨论 ， 两 个 纪 
IEE HUB 好 多 了 。 图 11.2 为 一 个 网 


总 线 上 的 数据 ， 不 会 被 


昌 完 全 物理 上 隔离 。 这 样 ， 接 


桥 模 型 。 


与 总 线 2 是 隔离 的 ， 如 果 A 


A 与 B 通 信 的 同时 ， 总 线 2 上 的 人 D 也 可 以 通信 。 
所 包含 的 节点 数目 降低 了 ， 所 以 相对 HUB 来 说 提高 了 性 


Lab 
E HE o 


但 是 如 果 A 想 与 D 通信 ， 怎 么 办 呢 ? 毫 无 疑问 ， 桥 接 芯 片 必须 将 A 发 出 的 数据 帧 从 总 
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线 1 复 制 到 总 线 2 上 ， 反 之 亦 然 。 那 么 ， 桥 接 芯片 如 何 知道 某 个 数据 帧 是 A 发 送 给 D 的 ， 
而 不 是 B 的 呢 (A 发 送 给 B 的 数据 帧 不 能 被 复制 到 总 线 2， 否 则 就 和 HUB 一 样 了 )? 显然 ， 
桥接 芯片 必须 对 数据 帧 做 分 析 ， 分 析 其 中 的 目的 MAC 地 址 ， 如 果 某 个 数据 帧 的 源 节点 在 总 


ilb 
他 总 线 ， 


其 目的 MAC 地 址 对 应 的 节点 也 在 总 线 1 上 ,那么 芯片 就 不 会 复制 这 个 数据 帧 到 民 
但 是 如 果 目 的 MAC 对 应 的 节点 与 源 节点 不 在 一 个 总 线 上 ， 则 桥接 芯片 会 将 这 个 数 


据 帧 转发 到 目的 节点 所 在 的 总 线 ， 从 而 让 目的 节点 收 到 。 

为 了 做 到 这 一 点 ， 网 桥 必 须知 道 某 条 总 线 上 到 底 包 含 了 哪些 MAC 地 址 ， 这 样 才能 做 到 
根据 目的 MAC 
芯片 是 通过 动态 学 习 来 填充 “MAC 一 总 线 ” 对 应 表 的 。 
每 当 总 线 上 有 数据 帧 通过 , 桥接 芯片 就 去 提取 它 的 源 MAC 地 址 , 放 入 对 应 表 中 (已 经 存 


线 的 对 应 关系 来 决定 某 个 数据 帧 是 否 需要 转发 ， 转 发 到 哪 条 总 线 。 桥 接 


在 的 记录 将 会 忽略 ]。 比 如 ， 当 网 桥 刚刚 加 电 的 时 候 ， 这 张 对 应 表 是 空 的 。 这 时 总 线 1 上 的 
A 向 B 发 送 了 一 个 数据 帧 ， 因 为 是 共享 总 线 ， 所 以 桥接 芯片 也 会 同样 收 到 这 个 帧 ， 网 桥 立 
即 提取 这 个 帧 中 的 源 MAC 地 址 ， 假 如 这 个 MAC 值 为 : 00-40-D0-A0-A3-7D， 就 向 表 中 填 入 

-条 “00-40-D0-A0-A3-7D bus1”， 这 表示 busl 总 线 上 ， 有 一 个 MAC 地 址 为 
00-40-D0-A0-A3-7D 的 节点 连接 着 。 同 样 ， 所 有 总 线 上 所 收 到 的 源 MAC 地 址 都 会 被 记录 到 
表 中 。 如 果 从 总 线 1 上 收 到 一 个 数据 帧 ， 经 过 查 表 发 现 其 目的 MAC 在 另 一 条 总 线 上 ， 则 网 
桥 将 这 个 帧 转发 到 那 条 总 线 。 如 果 某 个 帧 的 目的 MAC 还 没有 被 网 桥 学 习 到 ， 也 就 是 说 网 桥 
不 知道 这 个 MAC 在 哪个 总 线 , 则 网 桥 便 向 除 发 送 这 个 帧 的 总 线 之 外 的 其 他 总 线 转发 这 个 帧 ， 
直到 学 习 到 这 个 MAC 条 目 。 


a 


强 
调 
DE 


网 桥 并 不 记录 到 底 是 哪个 端口 所 连接 的 节点 具有 这 个 MAC, 因为 根本 没有 必要 
记录 端口 信息 ， 数 据 帧 只 要 进入 这 条 总 线 ， 这 条 总 线 上 所 有 端口 下 连接 的 节点 
就 都 会 收 到 数据 ， 只 记录 “总 线 -MAC” 统 计 表 即 可 ， 所 以 没有 必要 记录 “ 端 
" -MAC" X. 


11.3 ”交换 式 以 太 网 


HUB 是 一 锅 粥 ， 网 桥 也 好 不 到 哪里 去 ， 只 不 过 把 这 一 锅 大 粥 分 成 了 多 锅 小 粥 而 已 。 
随 着 硬件 技术 的 提高 ， 交 换 式 以 太 网 出 现 了 。 交 换 式 以 太 网 利用 交换 机 替代 了 网 桥 。 


个 端口 ， 


其 实 交 换 机 也 是 一 种 网 桥 ， 一 种 特殊 的 网 桥 。 普 通 网 桥 中 ,每 个 端口 组 (冲突 域 ] 中 有 不 只 一 


而 交换 机 中 ， 每 个 端口 组 中 只 有 一 个 端口 ， 也 可 以 这 么 说 ， 交 换 机 上 的 每 个 端口 


都 独占 一 条 总 线 。 这 样 交 换 机 彻底 隔离 了 冲突 域 ， 而 不 是 仅仅 减 小 了 冲突 域 ， 也 就 是 说 ， 
交换 机 的 每 个 端口 下 都 是 一 个 独立 的 冲突 域 。 

此 外 ， 交 换 机 内 部 芯片 ， 也 不 再 被 称 作 桥接 芯片 ， 而 改 成 交换 芯片 。 网 桥 芯 片 学 习 并 
记录 “MAC 一 总 线 ” 对 应 表 ， 那 么 顺藤摸瓜 ， 交 换 机 既然 每 个 端口 独占 一 个 总 线 ， 理 所 当 
然 的 ， 交 换 芯片 学 习 并 记录 的 就 是 “MAC 一 端口 ”对 应 表 。 
交换 机 是 以 太 网 的 最 终 实现 形式 。 端 口 之 间 不 再 是 共享 总 线 通信 ， 而 是 可 以 在 任意 时 


刻 、 任 意 两 个 端口 之 间 同 时 收发 数据 。 


12651 


大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


HUB 是 没有 大 脑 的 ， 只 有 一 个 中 继 器 。 网 桥 进化 出 了 大 脑 ， 但 是 智商 不 高 。 而 交换 机 
则 拥有 高 智商 的 大 脑 和 极 快 的 运算 速度 。 图 11.3 便 是 一 个 交换 式 模型 。 


Bus 交换 式 以 大 网 模型 
11.4 TCP/IP 协议 


以 太 网 的 出 现 ， 给 系统 间 互 联 提 供 了 方便 的 方式 。 每 个 节点 安装 一 块 以 太 网 适配器 ， 
上 层 程序 只 要 将 要 发 送 的 数据 以 及 数据 要 到 达 的 目的 MAC 地 址 告诉 以 太 网 卡 ， 数 据 就 可 以 


通过 以 太 网 传输 到 目的 ， 完 成 通信 过 程 。 


但 是 实际 中 ， 


以 太 网 并 不 是 直接 被 应 用 程序 使 用 来 收发 数据 的 。 究 其 原因 ， 就 是 因为 


以 太 网 是 一 个 没有 传输 保障 机 制 的 网 络 。 首 先 以 太 网 设备 不 会 对 数据 帧 进行 校 验 纠 错 等 措 
施 。 其 次 以 太 网 设备 一 旦 由 于 数据 交换 量 过 大 ， 就 可 能 造成 缓冲 区 队列 充满 而 主动 丢弃 数 
据 帧 ， 而 且 丢弃 数据 帧 的 同时 ， 不 会 有 任何 措施 来 通知 发 送 方 。 所 以 ， 以 太 网 是 一 个 不 可 
靠 的 网 络 。 应 用 程序 如 果 直 接 调 用 以 太 网 来 发 送 数据 ， 则 必须 忍受 丢失 数据 的 风险 。 

为 了 解决 以 太 网 的 这 个 弱点 ， 人 们 在 以 太 网 之 上 ， 增 加 了 一 个 层次 ， 在 这 个 层次 上 ， 
人 们 实现 了 以 太 网 所 不 具有 的 功能 。 运 行 在 这 个 层次 上 的 程序 ， 用 了 很 多 复杂 的 机 制 来 保 
证 发 送 给 以 太 网 适配器 的 数据 包 能 够 成 功 的 到 达 对 方 ， 如 果 中 途 发 生 丢 包 现象 ， 则 本 地 会 
通过 超时 未 得 到 确认 等 机 制 来 重新 发 送 该 数据 包 。 而 应 用 程序 由 原来 的 直接 调用 以 太 网 接 


， 改 为 调用 这 利 


| 


位 于 以 太 网 上 层 的 新 程序 接口 从 而 获得 可 靠 的 数据 收发 。 


运行 在 这 个 新 层次 上 的 协议 ， 有 很 多 ， 比 如 NetBEUI NetBIOS, IPX, TCP/IP 等 。 这 
些 协 议 ， 其 下 层 调用 以 太 网 提供 的 服务 ， 上 层 则 向 外 提供 新 的 调用 接口 ， 向 应 用 程序 提供 
靠 的 网 络 传输 服务 。 


在 这 些 协议 中 ，TCP/IP 以 其 广 谱 的 适用 性 、 良 好 的 性 能 以 及 能 够 良好 的 在 超大 规模 网 


络 上 运行 等 优点 ， 


11.4.1 TCP/IP 协议 中 的 IP 


迅速 地 得 到 了 普及 ， 成 为 Internet 网 络 所 使 用 的 通信 协议 。 


到 MAC 这 一 层 ， 以 太 网 已 经 实现 了 OS 的 下 三 层 ， 即 物理 层 、 链 路 层 和 网 络 层 。 以 太 


网 也 只 跨越 了 这 3 


为 TCP/IP 协议 的 
KICZ). 


层 ， 从 第 四 层 到 第 七 层 ， 以 太 网 没有 涉足 (现在 普遍 认为 以 太 网 只 作用 到 


链 路 层 ， 这 是 一 个 错误 观点 。 造 成 这 种 误解 的 原因 ， 是 以 太 网 一 旦 与 TCP/IP 结合 ， 便 沦落 


链 路 层 ， 其 第 三 层 地 址 被 以 太 网 的 IP 所 映射 掉 了 ， 所 以 掩盖 了 其 第 三 层 


于 以 太 网 的 天 生 弱 点 ， 使 它 不 得 不 选择 与 TCP/IP 协议 合作 ， 求 助 TCP/IP 协议 向 上 


UNLESS (n 
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靠 传输 保障 。 由 于 主动 权 完全 掌握 在 TCP/IP 手中 ， 所 以 TCP/IP 向 以 太 


第 | | B 大 师 之 作 一 大 话 以 大 网 和 TCP/IP 协议 


网 提出 了 一 个 非常 过 分 的 要 求 ， 即 以 太 网 要 想 占 有 市 场 一 席 之 地 ， 就 必须 将 MAC 地 址 隐藏 


午 ， 对 外 统统 用 TCP/IP 家 族 的 新 一 代 地 址 : IP 地 址 。 以 太 网 委 曲 求全 ， 不 得 不 同意 这 个 
其 实 ，TCP/IP 提出 这 个 要 求 不 是 故意 难为 以 太 网 。 因 为 除了 以 太 网 之 外 ， 还 有 很 多 其 


他 类 型 的 联网 方式 。 而 以 TCP/IP 在 业界 的 权威 性 ， 其 他 网 络 都 求助 于 TCP/IP 来 将 它们 珊 
入 市 场 以 分 一 杯 盖 。 而 几乎 每 种 联网 方式 都 有 自己 的 编 址 和 寻 址 方式 ， 面 对 这 么 多 种 地 址 ， 
TCP/IP 只 好 快刀 斩 乱 麻 ， 将 这 些 五 花 八 门 的 地 址 ， 统 统 映射 到 IP 地 址 上 ， 对 外 统一 以 IP 
地 址 作为 编 址 方式 。 


ARP 协议 
既然 TCP/IP 宣称 要 将 所 有 类 型 的 地 址 全 部 统一 到 IP 地 址 , 那么 也 就 意味 着 , 网 络 中 的 
每 个 节点 ， 都 必须 配备 一 个 IP 地 址 ， 节 点 之 间 相 互通 信 的 时 候 ， 也 要 使 用 IP 地 址 。 但 是 ， 


数据 帧 最 终 是 通过 底层 的 网 络 传输 设备 来 转发 的 ， 比 如 以 太 网 交换 机 。 而 以 太 网 交换 机 是 
不 理解 IP 地 址 的 ， 它 只 能 分 析 数 据 帧 中 特定 偏 移 处 的 MAC 地 址 ， 从 而 做 出 转发 动作 。 所 
以 ， 必 须要 有 一 种 机 制 ， 来 将 IP 地 址 映射 成 底层 MAC 地 址 。 

ARP 协议 就 是 专门 用 来 处 理 一 种 地 址 与 另 一 种 地 址 之 间 相 互 映射 的 一 种 机 制 。ARP 协 
议 运 行 在 每 个 网 络 设备 上 ， 将 一 种 地 址 映射 成 底层 网 络 设备 所 使 用 的 另 一 种 地 址 。 

对 于 ARP 协议 ， 本 书 不 再 做 具体 描述 。 


11.4.2 IP 的 另外 一 个 作用 


P 层 还 有 一 个 作用 ， 就 是 适 配 上 下 层 ， 给 链 路 层 和 传输 层 提 供 适 配 。 适 配 了 什么 ， 怎 
么 适 配 的 呢 ? 我 们 知道 链 路 层 有 MTU 的 概念 ， 也 就 是 链 路 最 大 传输 单元 ， 即 没 帧 所 允许 包 
含 的 做 大 字 节 数 。 


中 前面 第 7 章 中 描述 过 ， 链 路 层 就 类 似 于 司机 和 交通 规则 ， 要 对 货车 的 载重 ， 车 
型 大 小 有 要 求 ， 这 条 路 承受 不 了 多 重 的 车 ， 每 辆 车 不 能 拉 超 过 多 高 的 货物 等 规 
可 则 。 如 果 客 户 给 的 货物 太 大 、 太 重 ， 不 能 一 次 运 过 去 ， 那 么 只 能 把 货物 分 割 、 
分 次 运送 ， 到 达 目 的 地 后 ， 再 组 装 起 来 。 这 个 动作 是 由 IP 层 程序 来 做 。 也 就 
是 耳根 据 链 路 的 MTU 值 来 分 割 货物 ， 然 后 给 每 个 分 割 的 货物 块 ， 贴 上 源 和 目 
的 IP 地 址 、 顺 序号 ， 以 便 在 货物 块 到 达 目的 地 后 ， 利 用 顺序 号 来 重新 合并 成 
完整 的 一 件 货物 。 


货物 被 分 割 成 块 后 都 需要 被 路 由 转发 一 次 ， 然 而 路 由 器 每 次 选择 的 路 径 不 一 定 都 一 样 ， 
而 且 每 个 块 都 需要 由 司机 运送 ， 司 机 驾驶 水 平 、 速 度 不 同 ( 链 路 层 )， 就 难免 会 有 些 块 先 到 、 
有 些 后 到 ， 所 以 到 达 目 的 地 后 很 有 可 能 乱 序 。 此 时 就 要 用 到 顺序 号 了 ， 这 个 号 码 是 根据 货 
物 被 分 割 处 相对 整个 货物 起 点 的 距离 (offset， 偏 移 量 ] 而 制定 的 。 根 据 这 个 号 ， 等 所 有 货物 
块 到 达 目 的 之 后 ， 对 方 的 IP 程序 就 会 根据 这 个 号 码 将 零散 的 块 组 装 起 来 。 
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| 每 个 货物 块 都 携带 IP 头 部 ， 但 是 只 有 第 一 块 携带 TCP 或 者 UDP 头 部 ， 因 为 伟 
sg 输 层 头 部 是 在 应 用 数据 之 前 的 ，IP 分 割 的 时 候 ， 一 定 会 把 传输 层 头 部 分 割 在 第 
日 一 块 货物 中 。 


11.4.3 TCP/IP 协议 中 的 TCP 和 UDP 


TCP/IP 协议 其 实 包含 了 两 个 亚 层 ，IP 是 第 一 个 亚 层 ， 也 就 是 用 来 统一 底层 网 络 地 址 和 
寻 址 的 亚 层 。 第 二 个 亚 层 ， 就 是 TCP 或 者 UDP， 在 逻辑 上 它们 位 于 IP 之 上 。 

TCP 的 功能 ， 就 是 维护 复杂 的 状态 机 ， 保 障 发 送 方 发 出 的 每 个 数据 包 ， 都 会 被 最 终 传 
送 到 接收 方 ， 如 果 发 生 严重 错误 ， 还 会 向 上 层 应 用 反馈 出 错 信息 ， 从 而 保证 应 用 层 逻 辑 的 
无 误 和 一 致 性 。 
而 UDP 的 功能 ， 则 可 以 理解 为 是 TCP/IP 对 以 太 网 的 一 种 透 传 ， 即 UDP 是 一 个 没有 传 
输 保 障 功能 的 亚 层 ， 除 了 UDP 可 以 提供 比 以 太 网 更 方便 的 调用 方式 外 ， 其 他 方面 没有 什么 
本 质 区 别 。 也 许 是 因为 TCP/IP 协议 觉得 TCP 的 逻辑 太 过 复杂 ， 所 以 提供 了 一 种 绕 过 TCP 
复杂 逻辑 而 又 比 以 太 网 更 加 方便 调用 的 方式 ， 即 UDP. 

TCP/IP 协议 向 上 层 应 用 程序 提供 的 调用 接口 称 为 Socket 接口 ， 即 “插座 ”接口 。 这 也 
体现 了 TCP/IP 想 让 应 用 程序 更 为 方便 的 使 用 网 络 ， 就 像 将 插头 插入 供电 插座 而 接 入 电网 一 
样 使 用 计算 机 网 络 。 

基于 TCP/IP 有 很 多 应 用 层 协 议 , 这 些 协 议 必须 依赖 TCP/IP 协议 ， 比如: Ping, Trace, 
SNMP、Telnet、SMTP、FTP、HTTP 等 。 这 些 应 用 程序 , 加 上 它们 所 依赖 的 IP、TCP 和 UDP， 
然后 加 上 物理 层 链 路 层 ( 以 太 网 等 )， 一 并 形成 了 TCP/IP 协议 艇 。 

1. TCP 协议 

第 7 章 中 说 过 ，TCP 就 是 一 个 押运 员 的 角色 ， 也 就 是 由 它 把 货物 交 给 IP 做 调度 的 。 货 
为 最 初 是 由 应 用 程序 来 生成 的 ， 应 用 程序 又 调用 Socket 接口 来 向 接收 方 发 送 这 些 货物 。 应 
用 程序 通告 TCP/IP 去 特定 的 内 存 区 域 将 数据 拷贝 到 Socket 的 缓冲 区 ， 然 后 TCP 再 从 缓冲 
区 将 数据 通过 TP. 层 的 分 片 后 ， 从 底层 网 络 适 配器 发 送 到 网 络 对 端 。 
TCP 通过 MSS(Max Segment Size) 来 调整 每 次 转 给 IP 层 的 数据 大 小 。 而 MSS 的 值 完全 
取决 于 底层 链 路 的 MTU 值 。 为 了 避免 IP 分 片 ，MSS 总 是 等 于 MTU 值 减 掉 IP 头 ， 再 减 掉 
TCP 头 之 后 的 值 。 这 样 TCP 发 送 给 IP 的 数据 ，IP 加 入 IP 头 之 后 ， 恰 好 就 等 于 底层 链 路 的 
MTU 值 ， 使 得 IP 不 需要 分 片 。 


强 | 既然 货物 的 大 小 要 匹配 MTU， 那 为 什么 不 直接 让 TCP 直接 把 分 割 好 的 货物 给 
IP 76? 


TCP 其 实 很 想 这 么 做 ， 但 是 它 很 难 做 到 ， 因 为 TCP 是 个 端 到 端的 协议 ， 也 就 是 说 ， 只 
有 通信 的 最 终端 点 维护 着 TCP 状态 信息 ， 途 经 的 各 个 其 他 设备 一 概 不 知道 。 如 果 两 个 端点 
所 处 的 局 域 网 都 是 以 太 网 ， 但 是 途经 一 段 串口 链 路 ， 假 设 串口 MTU 为 576 字 节 ， 以 太 网 
MTU 为 1500 字 节 ， 那 么 双方 在 TCP 握手 的 时 候 会 互相 通告 自己 的 MSS， 因 为 是 端 到 端 协 
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议 ， 不 关心 途经 的 设备 和 链 路 ， 那 么 他 们 都 认为 自己 和 对 方 都 处 在 以 太 网 中 ， 所 以 互相 都 
通告 自己 的 MSS 值 为 1460 字 节 (最 大 分 段 大 小 ,等 于 出 口 MTU IE IP AA TCP KIII H). 

这 样 ，TCP 给 IP 的 货物 大 小 就 是 1460+TCP 头 =1480 字 节 ， 然 后 加 上 IP 头 传输 出 去 。 
一 旦 这 个 数据 包 到 达 了 串口 链 路 ， 则 串口 链 路 两 端的 IP 层 必 须根 据 串 口 链 路 的 MTU， 对 
(1480+ 串 行 链 路 协议 头 ) 字 节 的 数据 包 进 行 分 片 ， 将 数据 包 分 成 多 个 576 字 节 的 数据 帧 (最 
后 一 帧 大 小 可 能 小 于 576 字 节 ]， 从 而 在 串口 链 路 上 传输 。 所 以 TCP 的 MSS, 在 广域网 传输 
时 基本 派 不 上 用 场 。 不 过 ， 有 机 制 可 以 探测 到 途经 链 路 上 的 最 小 MTU 值 ，TCP 参考 这 个 链 
路 最 小 MTU 值 所 得 出 的 MSS 值 ， 这 时 是 很 有 价值 的 。 
在 Windows 系统 中 ， 每 块 网 卡 的 MTU 大 小 其 实 是 可 调 的 ， 但 是 只 能 调节 到 比 网 卡 所 
连接 到 的 以 太 网 交换 设备 所 允许 的 最 小 MTU 值 还 小 才 可 以 ， 如 果 调 节 到 大 于 这 个 值 ， 则 会 
造成 数据 丢失 以 及 不 可 知 的 莫名 错误 。 Windows 中 是 通过 注册 表 中 以 下 的 键 值 来 调节 MTU 
大 小 的 : 

HKEY LOCAL MACHINE\SYSTEM\ControlSet003\Services\TCP/IP\Parameters\Inter 

faces\{ 接 口 编号 }\MTU 

图 11.4 是 一 个 TCP 握手 过 程 中 ,发 起 连接 端 在 TCP 头 的 option 字段 中 给 出 了 本 地 TCP 
的 最 大 MSS 值 (本 地 网 络 适配器 最 大 MTU 值 减 去 40 字 节 ]。 本 例 中 由 于 MTU 值 被 配置 为 了 
1300 字 节 而 不 是 默认 的 1500 字 节 ， 所 以 造成 TCP 通告 MSS 值 为 1260 字 节 。 


Protocol mo 


B4 TCP 握手 过 程 中 的 一 个 包 

TOP 将 上 层 应 用 的 数据 完全 当成 字 节 流 ， 不 对 其 进行 定 界 处 理 。TCP 认为 上 层 应 用 数 
据 就 是 一 连 串 的 字 节 ， 它 不 认识 字 节 的 具体 意义 ， 却 可 以 任意 分 割 这 些 字 节 ， 封 装 成 货物 
进行 传送 ， 但 是 必须 保证 数据 的 排列 顺序 。 
比如 , 上层 应 用 要 传输 123456789 这 9 个 数字 , TCP 可 以 一 次 发 送 这 9 个 字 节 的 内 容 ， 


[以 每 次 发 送 3 个 字 节 ， 分 3 次 发 完 ， 或 者 ， 上 层 放 到 货 仓 中 1、2、3 三 个 数据 ，TCP 
[能 将 这 3 个 数据 打包 一 次 发 送 (nagel 算法 )，TCP 的 这 些 动作 ， 上 层 都 是 不 知道 的 。 但 
是 ， 对 于 123456789 这 9 个 数字 ， 如 果 接 收 端 先 收 到 1、2、3 这 三 个 数字 ，4 一 9 还 没有 
被 接收 到 , 而 当 只 有 应 用 程序 完全 接收 到 这 9 个 数字 才 会 认为 数据 有 意义 时 , 应 该 怎么 办 呢 ? 

要 解决 这 个 问题 ， 就 得 完全 靠 上 层 应 用 程序 。 比 如 ， 可 以 在 一 个 消息 头 部 增加 一 个 定 
长 字段 ， 表 示 这 个 消息 的 长 度 ， 比 如 在 123456789 之 前 增加 一 个 [9]， 变 成 (9)123456789， 
那么 程序 一 旦 接受 到 (9)， 就 能 判断 出 接 下 来 要 连续 接收 9 个 字 节 才 有 意义 ， 如 果 某 时 刻 只 
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可 
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接收 到 了 1、2、3， 应 用 程序 便 会 将 数据 缓存 起 来 ， 然 后 等 待 后 面 的 6 个 数字 。 

如 果 TCP 从 (9) 处 分 割 了 数据 流 ， 怎 么 办 ?比如 分 割 成 “(” 和 “9)123456789” 两 段 数 
据 ， 那 么 此 时 接收 方 应 用 程序 接收 到 “(” 这 个 字符 ， 就 会 不 理解 其 意义 ， 这 样 就 要 求 应 
程序 必须 有 缓存 ， 把 TCP 交 上 来 的 数据 流放 到 缓存 中 ， 然 后 自行 合并 成 有 意义 的 数据 后 再 
做 处 理 。 

TCP 把 上 层 的 数据 看 作 一 些 无 关联 逻辑 的 数据 流 ， 它 不 会 感知 到 消息 与 消息 之 间 的 定 
界 符 。 消 息 和 消息 之 间 的 界限 需要 完全 由 应 用 程序 自行 分 析 。 接 收 端 和 发 送 端的 TCP 都 保 
存 一 个 缓冲 区 ( 货 仓 )， 发 送 和 接收 的 数据 都 存放 在 货 仓 中 ， 接 收 方 TCP 货 仓 中 的 数据 ， 每 
次 被 应 用 程序 一 次 性 取出 到 应 用 程序 自己 的 缓冲 区 ， 应 用 程序 再 从 应 用 缓冲 中 将 数据 流连 
接 成 有 意义 的 数据 进行 处 理 。 

一 句 话 ，TCP 是 把 上 层 数据 “分 段 ”，IP 是 把 TCP 分 好 的 段 再 “分 片 ”( 如 果 这 个 段 大 
于 MTU), IP 到 达 目 的 之 后 会 把 每 个 分 片 合并 成 一 个 TCP 的 “分 段 ”， 提 交 给 TCP， 然 后 
TCP 就 直接 存放 到 货 仓 ， 顺 序 排放 ， 不 管 上 层 消息 间 的 分 界 。 

2. UDP 协议 

UDP 和 TCP 不 同 , TCP 是 孙悟空 , 那么 UDP 就 是 猪八戒 。 UDP 只 是 被 动 的 起 到 一 个 IP 
和 上 三 层 之 间 的 接口 作用 ，UDP 没有 传输 保障 机 制 ， 出 错 后 不 会 重 传 ， 不 需要 保持 重 传 组 
冲 和 复杂 的 定时 器 、 状 态 机 等 机 制 ， 而 且 UDP 也 不 会 像 TCP 那样 把 数据 流 按照 MSS 分 段 ， 
UDP 统统 不 理会 。 用 户 传 给 UDP 多 大 的 数据 ， 它 就 一 次 性 发 送出 去 ， 适 配 MTU 的 工作 完 
全 由 IP 来 做 。 

UDP 没有 握手 机 制 ， 想 发 就 发 ， 发 完 就 不 管 了 。 正 因为 UDP 这 么 简单 ， 所 以 UDP 头 部 
只 有 8 字 节 长 ,包括 目的 和 源 端口 号 、UDP 数据 包 长 度 、UDP 校 验 和 。 而 且 UDP 相对 TCP 
效率 高 了 很 多 。 所 以 它 适 合用 在 实时 性 要 求 很 高 ， 但 是 可 靠 性 要 求 不 高 的 时 候 ， 比 如 实时 
视频 流 、 音 频 流 服 务 等 。 

3. 端口 号 

计算 机 操作 系统 上 ， 运 行 着 N 个 程序 ， 也 可 以 说 是 N 个 进程 。 如 果 程 序 之 间 需 要 相互 
通信 ， 就 需要 用 号 码 来 标识 各 个 程序 ， 也 就 有 了 进程 号 的 概念 。 只 要 知道 一 个 程序 的 进程 
号 ， 就 可 以 用 这 个 区 分 其 他 程序 。 

同一 台 计 算 机 上 程序 之 间 的 通信 ， 一 般 是 在 内 存 中 直接 通信 的 。 如 果 两 台 计 算 机 上 的 
两 个 程序 之 间 需 要 通信 ， 虽 然 也 可 以 通过 高 速 网 络 将 两 台 计 算 机 的 内 存 共享 ， 但 是 这 种 网 
络 的 成 本 很 高 。 而 普通 网 络 能 做 到 的 ， 只 能 用 另外 一 种 方式 ， 即 先 将 消息 通过 网 络 发 送 到 
另 一 个 计算 机 ， 然 后 让 接收 到 消息 的 计算 机 来 选择 把 这 个 消息 发 给 其 上 运行 的 对 应 的 程序 。 
要 这 样 做 , 接收 方 的 操作 系统 中 的 TCP/IP 协议 就 一 定 需要 知道 某 个 数据 包 应 该 放 入 哪 
个 应 用 程序 的 缓冲 区 ， 因 为 同一 时 刻 可 能 有 多 个 应 用 调用 Socket 进行 数据 收发 操作 。 为 了 
区 分 开 正 在 调用 Socket 的 不 同 应 用 程序 ，TCP/IP 协议 规定 了 端口 号 的 概念 。 任 何 一 个 应 用 
程序 在 调用 Socket 的 时 候 ， 必 须 声明 连接 目的 计算 机 上 TCP/IP 协议 的 那个 端口 号 。 
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11.5 TCP/IP 和 以 太 网 的 关系 


很 多 人 把 TCP/IP 和 以 太 网 硬性 关联 起 来 ， 认 为 TCP/IP 就 是 以 太 网 ， 或 者 以 太 
网 就 是 TCP/IP， 这 种 思想 是 完全 错误 的 。 


TCP/IP 是 一 套 协议 体系 ， 以 太 网 也 是 一 套 协议 体系 ， 他 们 之 间 是 相互 利用 的 关系 ， 而 
不 是 相互 依存 的 关系 。 
TCP/IP 协议 并 不 像 以 太 网 一 样 有 其 底层 专门 的 硬件 ， 但 是 它 可 以 租用 一 切合 适 的 硬件 
来 为 它 充当 物理 层 和 链 路 层 的 角色 。 除 了 以 太 网 交换 机 ，TCP/IP 甚至 可 以 用 无 线 电波 、 红 
外 线 、USB、COM 串口 、ATM 等 作为 其 物理 层 和 链 路 层 。 
以 太 网 给 TCP/IP 充当 了 链 路 层 ， 不 一 定 代表 它 只 能 作用 于 链 路 层 。 我 们 知道 以 太 网 有 
自己 的 网 络 层 编 址 和 寻 址 机 制 ， 它 有 网 络 层 的 元 素 。 各 种 联网 协议 都 有 自己 的 层次 ， 都 在 
osi 模型 中 有 自己 的 定义 ， 只 不 过 TCP/IP 协议 ， 它 在 网 络 层 和 传输 层 的 功能 应 用 的 太 广 泛 
T, WMA 0SI 的 第 三 层 和 第 四 层 ， 几 乎 就 是 被 TCP/IP 协议 给 统治 了 ， 其 他 协议 虽然 也 占有 
- 席 之 地 ， 但 是 相 比 TCP/IP 的 光辉 就 暗淡 了 许多 。 另 外 ，TCP/IP 没有 统治 链 路 层 和 物理 
层 ， 在 这 两 层 中 ， 就 是 其 他 协议 体系 的 天 下 ， 所 以 TCP/IP 只 能 “租用 ”其 他 底层 协议 ， 比 
如 以 太 网 ， 来 完成 OSI 开放 系统 互联 的 任务 。 
这 就 是 PoP， 意 即 Protocolover Protocol. PoP 的 思想 ， 到 处 可 见 ， 因 为 没有 人 可 以 统 
治 0SI 的 全 部 7 层 ， 毕 竟 需 要 大 家 相互 合作 。 关 于 PoP 的 具体 分 析 ， 在 本 书后 面 的 章节 中 
会 讲 到 。 


次 
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TCP/IP 协议 可 谓 出 尽 了 风头 ， 不 仅 统治 了 Internet， 就 连 局 域 网 通信 ， 人 们 也 愿意 
使 用 高 开销 的 TCP/IP 协议 ， 可 算是 给 足 了 它 面 子 。 

TCP/IP 的 买卖 越 开 越 大 ， 知 并 收购 ， 不 断 涉足 新 领域 ， 甚 至 连 家 用 电器 都 想 接 入 
IP 网络 。 而 偏偏 有 一 位 惕 是 坚持 不 给 TCP/IP 面子 ， 这 就 是 大 名 辊 易 的 FC 大 侠 。 十 几 
年 来 ，TCP/IP 在 江湖 上 可 谓 是 叱 这 风云 、 前 呼 后 拥 、 一 呼 百 应 ， 听 惯 了 恭维 话 ， 看 惯 
了 鞠躬 人 。 但 是 唯 独 FC 大 侠 从 来 没 正 眼看 过 它 一 次 ，TCP/IP SAKA! 
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12.1 WERI 


FC KIREK TCP/IP 叫板 ， 肯 定 有 自己 的 拿手 本 领 。 


正 由 于 这 些 原因 ， 
老 T(TCP/IP) 心 里 一 琢磨 ， 


f 


首先 ,FC 在 家 底 儿 上 就 占 了 上 风 ，FC 是 正 儿 八 经 的 世家 ， 四 世 同 堂 (0SI 下 四 层 都 
HEX). M TCP/IP 就 两 非 人 (网 络 层 和 传输 层 ])， 好 不 容易 整 了 个 后 代 还 是 收养 的 
(租用 以 太 网 等 其 他 底层 传输 网 络 ] 。 
Ik, FC 目前 普遍 能 跑 出 每 秒 AGb/s 的 速度 ， 以 太 网 每 秒 100Mbys 的 速度 算 正 
常 ，1Gb/s 的 速度 算 超常 发 挥 ，10Gb/s RE can 
FRX, TCP/IP 办 事 拖泥带水 ， 笨 重 不 堪 。 瞧 瞧 TCP/IP 的 那个 大 头 (TCP 和 IP 头 开 
销 合 起 来 要 40 F), m EHEH. FC 的 脑袋 只 有 24 字 节 。 以 太 网 交换 机 
MTU 一 般 为 1500 字 节 ，FC 交换 机 则 超过 2000 字 节 ， 传输 效率 上 也 高 过 以 太 网 。 
BARRAS REGE FC 的 道 儿 。 

虽然 俺 家 业 不 如 FC 大 ， 跑 的 不 如 它 快 ， 


长 得 也 比 它 胖 ， 但 


-无 是 处 啊 ! 
首先 ， 俺 广 结 天 下 良友 ， 
Ax. (emu. 
不 了 它 。 
再 次 ， 那 FC 也 不 是 神仙 ， 走 它 的 道 毛病 太 多 ， 兼 容 性 差 ， 扩 展 性 差 ， 而 且 费 用 太 
高 。 就 赁 这 三 点 ， 不 信 斗 不 过 FC。 


江湖 各 处 都 有 俺 的 分 号 。 


给 钱 就 让 走 。 且 俺 的 好 兄弟 以 太 网 ， 几 乎 有 网 络 的 地 方 ， 一 定 少 


老 T 陷 入 了 久久 的 沉思 之 中 …… 


12.2” 自 叹 不 如 一 一 为 何不 是 以 太 网 +TCP/IP 


以 太 网 可 寻 址 容量 很 大 ， 甚 至 比 IP 的 地 址 容量 都 要 大 ， 是 IP 的 2 的 16 次 方 倍 。 而 其 
地 址 是 定 长 的 ， 且 使 用 专用 电路 完成 交换 动作 。 以 太 网 除了 双 绞 线 之 外 ， 还 可 以 用 光纤 进 
行 传输 。 最 重要 的 一 点 就 是 以 太 网 非常 廉价 、 部 署 简单 。 一 个 普通 16 口 100Mb 以 太 网 交 


换 机 ， 


只 需要 一 两 百 元 左右 。 而 一 个 16 口 的 FC 交换 机 得 上 万 元 ， 还 没有 算 上 适 配 光 纤 的 
SFP 适配器 的 费用 。 


但 是 ， 以 太 网 
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与 FC 网 络 比 起 来 ， 也 有 其 先天 不 足 之 处 。 
第 一 ， 速 度 方 面 ， 以 太 网 目前 只 普及 到 1Gb/s 的 速度 ， 虽 然 10Gb/s 以 太 网 络 已 经 
开发 出 了 成 品 , 但 是 离 完 全 普及 还 需要 一 段 时 间 。 而 FC 已 经 普及 到 了 4Gb/s 的 速 
E, H. 8Gb/s 和 10Gb/s 速度 的 FC 接口 标准 也 正在 制定 当中 。 
， 以 太 网 是 一 个 不 可 靠 的 网 络 ， 它 不 是 一 个 端 到 端的 协议 ， 不 管 源 和 目的 的 
状态 ， 只 是 一 味 地 向 接口 上 塞 数据 ， 这 也 是 下 层 协议 的 普遍 特点 。 即 使 对 方 缓冲 
将 满 ， 以 太 网 还 是 照样 往 链 路 上 塞 数 据 ， 而 不 会 有 所 减 慢 。 一 旦 接收 方 缓存 充满 ， 
随后 的 数据 帧 就 会 被 自动 丢弃 而 不 会 向 上 层 通 告 。 所 以 ， 以 太 网 必须 依靠 一 种 提 
供 可 靠 传输 机 制 的 上 层 协议 才能 达到 可 靠 传输 。 


第 12 章 异军突起 一 存储 网 络 的 新 军 IP SAN 


Disk SAN 是 唯一 一 个 没有 被 以 太 网 攻克 的 领域 . 最 大 的 原因 其 实 就 是 因为 以 太 
网 的 速度 相对 FC 来 说 慢 了 太 多 。 


以 太 网 仿佛 总 是 慢 了 一 步 。 FC 速率 普及 到 1Gb/s 的 时 候 , 以 太 网 才刚 刚 普 及 到 10Mb/s 
的 速率 ， 而 且 还 是 HUB 总 线 式 以 太 网 。 而 当 FC 普及 到 2Gb/s 速率 的 时 候 ， 以 太 网 也 刚刚 
普及 到 100Mb/s。 直 到 目前 ， 以 太 网 才 普 及 到 1Gb/s 速率 ， 而 FC 已 经 普及 到 4Gb/s T. 

以 太 网 即使 是 依靠 了 TCP/IP 协议 提供 的 传输 保障 机 制 ， 也 难 敌 FC 协议 。 总 之 ， 目 前 
来 说 ，FC 协议 在 性 能 方面 处 处 比 TCP/IP+ 以 太 网 强 。 


12.8 ”天 生 我 才 必 有 用 一 一 攻陷 Disk SAN 阵地 


老 T 深 知 ， 自 己 再 怎么 修炼 ， 也 不 可 能 在 速度 和 性 能 上 与 FC 正面 交锋 。 在 江湖 中 摸 疏 
深 打 了 这 么 多 年 , 老 谋 深 算 的 老 T 决定 避 开 自己 的 这 些 短 处 不 谈 , 发 扬 自己 的 长 处 , 将 Disk 
SAN( 相 对 于 NAS SAN) 这 个 阵地 攻陷 。 

俺 老 T 不 管 是 论 品 相 还 是 论 才能 ， 都 不 输 给 FC。 既 然 SCSI 能 嫁 给 FC， 它 就 没有 理由 
AHER D. E TARAH, R SCS 成 亲 后 的 种 种 。 

X T 经 过 一 段 时 间 的 摸索 和 实验 ， 终 于 设计 出 了 一 套 新 协议 系统 ， 称 其 为 ISCSL, HU 
Internet Small Computer System Interface。 即 在 这 种 协议 中 ，SCSI 语言 甚至 可 以 通过 
Internet 来 传递 ， 也 就 是 承载 于 TCP/IP 之 上 。 

由 此 可 见 其 扩展 性 是 非常 高 的 。 只 要 IP 可 达 ， 则 两 个 节点 之 间 就 可 以 通过 1SCSI 通信 。 
也 就 是 说 ， 位 于 中 国 的 一 台 主 机 ， 可 以 通过 ISCSI 协议 从 Internet 访问 国外 的 存储 空间 。 既 
JR ISCSI 协议 是 利用 TCP/IP 协议 来 传输 SCSI 语言 指令 , 那么 在 通信 的 双方 就 一 定 需要 先 建 
立 起 TCP 的 连接 。 与 FC 协议 类 似 ，ISCSI 将 发 起 通信 的 一 方 称 为 Initiator， 将 被 连接 端 称 
为 Target。 一 般 来 说 ，Initiator 端 均 为 主机 设备 ，Target 端 均 为 提供 存储 空间 的 设备 ， 比 
如 磁盘 阵列 。 

老 了 拿 着 设计 蓝图 找到 了 SCSI 协议 ， 并 且 成 功 取得 了 SCSI 的 芳心 。 于 2004 4E 4 月 份 
完婚 ， 并 且 领 到 了 结婚 证 ， 编 号 为 RFC3720。 

两 人 并 肩 携手 ， 成 功 游说 了 一 批 磁盘 阵列 生产 厂商 在 其 产品 上 尝试 着 实现 ISCSI 协议 。 


正如 本 书 第 10 章 中 所 说 的 ， 既 然 SCS 语言 及 数据 可 以 用 FC 协议 传递 ， 文 件 
六 系统 语言 可 以 用 以 太 网 传递 ， 那么 SCSI 语言 当然 也 可 以 用 以 太 网 传递 。 


12.4 ISCSI 交互 过 程 简 析 


以 下 所 有 实例 均 为 Windows XP 操作 系统 环境 ， 抓 包 软 件 为 WireShark 0.99。 
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1241 实例 一 : 初始 化 磁盘 过 程 


图 12.1 一 图 12.6 所 示 的 Trace 结果 是 在 Windows XP 中 ， 初 始 化 一 块 通过 ISCSI 协议 
提交 上 来 的 LUN 磁盘 的 过 程 中 抓 取 的 。 在 Windows 初始 化 一 块 新 磁盘 的 过 程 中 , 会 对 磁盘 
FE 行 查询 以 及 修改 其 MBR。 下 面 就 来 分 析 一 下 具体 的 动作 。 

图 12.1 中 包含 了 Framel 一 Frame8。 


E 


an rj 
20:128:128.294 
10.128.133.60 
s Frane 2 C10 bytes on wire, 110 bytes captured) 
[s Ftherret II, src: 00:1b:90:70:e7:c1 (00:15:90:70:87:c1), Dst: usi_4e:7e:61 (00:1a 
& Internet protocol, Sre: 10.128.133.80 (10.128.133.60), Dst: 10.128.128.194 (10.12: 
s Transmission control Protocol, sre Port: 3260 (3240), Dst Fort: 3801 3801), Seq: 
| 1ScS1 (SCSI Data Im) 
| scsr payload (Read capacity(10) Response Data) 
Ikun: pxoooo] 
[comand set:oirect access Dev. 
[sec opcode: Read cipacity(l2) < 
eauast in: 1 


30.128.128.394 į pata in Lun: 0x00 (Read Cap. 


(using default commandser)] 


"lock size 1n S12 


a sest Response (Read CapacityC10)) 


B21 初始 化 磁盘 的 过 程 
关键 帧 分 析 


Framel 一 8: ISCSI Initiator 端 (主机 端 ) 首 先 向 LUN(ISCSI Target) 发 起 Read Capacity 
指令 来 读 取 此 LUN 的 容量 信息 。 在 Target 返回 的 数据 中 , 可 以 看 到 这 个 LUN 共 包 含 的 LBA 
数 为 112454 个 ， 总 容量 为 54MB(112454x512:1024:1024)。 主 机 连续 对 Target 发 出 了 4 
次 Read Capacity 指令 ， 这 也 是 程序 上 的 设计 ， 可 能 是 为 了 充分 保证 读 取 到 的 容量 是 准确 无 
误 的 。 

图 12.2 包含 了 Frame9—Frame10. 


Ms me wre Destroten. Ruto Info 
9 0.000862 — 10.128.128.104 — — 10.128.133.50 dsCEI SCSI: Test Unit Ready LUN: 0x00 
imr TT TT " i TELLE: 


E TEUA ara Tys TST 
a iscsi (scat Response) 
opcode: SCSI Response (0x21) 

® Flags: 0x80 
Response: Command completed at target (0x00) 
Status: Good (0x00) 
TotalAMzLergth: 0x00 
bataSegwertLength: 0x20000000 
InftiatorTaskTag: 0x00000049 
Stetsh: 0x0000004a 
Expcmdsi: 0x0000004a 
有 


leo50 oo 4a 00 00 00 4a 00 00 
[0060 00 00 00 00 00 00 


B:22 Test Unit Ready 
Frame9—10: 主机 在 读 取 完 Target 端的 容量 信息 之 后 , 便 发 起 了 一 个 Test Unit Ready 
指令 来 探寻 Target 端 是 否 处 于 可 工作 状态 或 已 经 准备 就 绪 。 第 10 帧 是 Target 对 主机 的 响应 。 
图 12.3 包含 了 Frame11— Frame13. 
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TN: UXUUUUT 

[command set:birect Access Device (0x00) (using default conmandset)] 
[sec opcode: Mode sense(6) (0x13)] 

IReguest in: 22] 


[Response in: 131 
Mode Data Length: 189 
Medium Type: 0x00 
Device-specific parametar: 0x00 
Block vescriptor Length: 8 
No. of Blocks: 0. 
Block Length: 512 
图 Reac/write Error Recovery Moce Page 
m Disconnect-Reconnect Mode Page 
i Format Device Mode Page 
i Rigid Disk Geometry mode Page 
由 caching mode Page 
Contro! Mode Page 
Œ Notch & Partition mode Page 
Œ OR Contro! Mode Page 
'& Protocol-specific Port Mode Page 
 Informatlona] exceptions control mode page 


H123 Mode Sense 


Frame11~13: 主机 向 Target 发 出 了 Mode Sense 指令 ， 用 来 查询 Target 在 SCSI 处 理 
逻辑 以 及 物理 上 的 相关 参数 。Target 在 第 12 帧 中 返回 了 结果 。 

Frame14 为 TCP 底层 的 ACK， 不 必 深 究 。 

图 12.4 中 包含 了 Frame15 一 Frame16。 


图 12.5 | 


图 12.6 | 


Sore 
10.123.125. 194 n  Lüu: dxoo (LBA: ox 
TT - PR Hil CT 


H24 读 取 LBAO 
Frame15—16: 主机 读 取 Target 的 第 一 个 LBA， 即 编号 为 全 0 的 LBA， 这 个 LBA 也 就 
区 。 从 数据 内 容 中 可 以 看 出 ， 新 磁盘 的 这 个 扇 区 的 内 容 是 全 0。 


Hie Frame17. 
: 主机 向 Target 的 0 号 LBA 写 入 了 数据 , 也 就 是 将 一 些 必要 信息 写 入 了 MBR。 
Ph 包含 了 Frame18 一 Frame57。 


Frame18—57: ÆA MBR 之 后 ， 主 机 又 接连 多 次 发 出 Read LBA0、Read Capacity, 
Write LBA0、Test Unit Ready 指令 。 在 最 后 一 个 Test Unit Ready 指令 发 出 并 获得 返回 数据 
之 后 ， 磁 盘 初 始 化 完毕 。 此 时 没有 数据 包 交 互 了 。 

对 磁盘 分 区 、 格 式 化 等 操作 过 程 ， 这 里 就 简单 地 介绍 这 么 多 。 有 兴趣 的 读者 可 以 自行 
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3 D.0USS 10.128.128.19 


LCE-ESIGUR AREE Len: 13 


ER 
0 m 


SEŠ: bata In Low: orpo (eaat) Response BACA) scsr: or 
ZE iiam. 

ES 

ESI 

EH 


ipaa. 133-00 30 resporse ota; 


ET 
ET 
iens taaa 
FERE 


esti m 
SD enim 
po 
nesponse bat 


espense vata: 


noa O 
puppet 
St: bata vto io © 
saxi Caoseley Cy Lon: omi 
Toten qoo Chead CapacttyCLU) nesponse tuti 
$ Data In Uns Groo Caead CapacttyC10) Response batai 
i x0» (etas CapacttyCQL0) Response Data; 
ipecityCL0) nescone pata; 

i Capacity) 
pacity tespome tata 


tia Capacity) Respon 


E a 
es 
二 


图 12.6 多 种 指令 再 次 读 写 
12.4.2 实例 二 : 新 建 一 个 文本 文档 


在 图 12.7 的 10.128.134.107 这 台 主 机 通过 TCP/IP 网 络 与 10.128.133.60 那 台 磁 盘 阵 列 
通信 。 并 在 磁盘 阵列 的 一 个 LUN 中 建立 了 一 个 新 文本 文件 ， 图 12.7 所 示 为 主机 与 磁盘 阵列 
交互 数据 的 过 程 。 


1 
EU 2020.138.194 10.128.133.60 


No. Tme source ea 
0.000000 10.128.134.107 10.128.133.60 
0.000017 10.128:194.107 10.128.133.60 

1 IPEA 10- 128.133: 9 
[0.128.136.107 19.128.171.69 

134.107 19.128.113.69 
134.107 10.128.133.60 


reassembled pou] 
35366159 pou] 
reassenb] ed Pou] 
Feassenbied rou] 
iem 
Tesstesnied Pe 


'apcpeo > 1061 LACK] Sen-0 Ack 292 


109.128.134.107 Tp  — 3apdp50 > 1061 [ack] SeG-0 ACE-304( 
109.128.134.107 Tep 3apdp60 > 1061 LACK] seg- AcK-756( 
10128131107  Jsest Seer: Response LUN: 0x00 (erire(i0- 
10.128.133.60 Tcr [acr segnen of a reassesbled Pou] 
10.128.133.60 Ter fier Segment of a reassenited rov 
19.128.143.69 Tr, dese Sf 3 resecembied 
10.128.133.69 了 seo Lun: oon (LBA: be 


on wire. 734 bytes captured] 
[. Ethernet Ir, sre: usi dais ibà (00:16:41:34:7f:b8), Dst: Cito 28:b6:00 (00:12:30:28:b6:c0) 
[s interner Prorocol, sre: 10.128.134.107 (10.128.134.107), Ost: 10.128.133.60 (10.128.133.60) 
2 Transsisston Control Protocol, sre Port: 1081 (1061), pst port: sapdpeo (3260), Seq: 7560, ack: o 


Tesi (CST Command) 
opcode: «csi Command (0x01) 
it queued delivery 


12.7 
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前 7 个 数据 帧 所 包含 的 Payload 字 节 数 为 8240。 这 8240 gus 就 是 主机 向 磁盘 阵 
列 所 发 送 的 一 次 写 10。 协 议 分 析 软 件 自行 判断 了 数据 帧 中 的 协议 ， 并 定 界 分 析 了 前 7 个 数 
据 帧 为 一 次 ISCSI 的 写 动作 。 这 8240 个 字 节 ， 其 实 就 是 ISCSI ndr Socket 调 
TCP/IP 协议 向 外 发 送 的 字 节 ， 而 TCP 根据 MSS fü, X 8240 字 节 的 数据 分 割 成 了 7 
个 数据 包 传 送出 去 。 这 8240 字 节 中 包 全 一 个 48 字 节 长 的 ISCSI 头 ， 以 及 剩余 部 分 最 终 都 
需要 被 写 入 LUN 的 数据 。 我 们 可 以 计算 一 下 ，8240 FEMA 48 字 节 ， 等 于 8192 字 节 
险 好 是 16 个 磁盘 扇 区 (16x512 字 节 ) 的 大 小 。 也 就 是 说 , 这 次 传输 其 实 就 是 主机 向 这 个 LUN 
的 16 个 连续 肩 区 STRE. 图 1 12.8 中 也 显示 了 相关 字段 的 值 ， 确 实 为 16。 


X Access Device (0x00) using default comandser)] 
(0x22) 


Varserscr: On 
po: v Page put s DISABLED or this data) 


8D e Read fron volactle ov non-valatile cache permitted 
lock Address (LBA): 198484 
0x00 


Tr 16 
Vendor unique = 0, NACA = 0, Link = O 


图 12.8 此 IO 块 大 小 为 16 个 LBA 
如 图 12.8 在 主机 向 存储 设备 传送 的 SCSI 命令 中 ，0pcode 字段 给 出 了 这 个 命令 的 操作 
代码 , 0x2A 表示 写 , 如 果 为 读 , 则 对 应 的 值 为 0x28。 同时 也 给 出 了 要 写 入 的 初始 LBA 为 (也 
就 是 扇 区 号 )]198484 和 Transfer Length 为 16。 也 就 是 说 , 主机 在 这 条 命令 中 通知 存储 设备 ， 
将 随后 传送 的 数据 写 入 从 198484 号 LBA 开始 的 随后 16 个 扇 区 中 。 
存储 设备 上 的 TCP 程序 返回 给 主机 3 个 ACK 应 答 开销 数据 包 后 ,在 第 11 帧 中 ,将 ISCSI 
协议 自身 的 会 话 层 应 答 返 回 给 主机 ， 证 明 SCSI 命令 已 经 执行 成 功 ， 如 图 12.9 所 示 。 


8 
g 
i| : 
l| = 
E 


P EEEE EEEE 


图 12.9_ 成 功 返 回 
我 们 来 计算 一 下 主机 向 存储 发 送 了 16 个 扇 区 的 数据 ， 其 所 耗费 的 开销 大 致 为 多 少 。 


r Ji 1: ISCSI 头 部 。ISCSI 头 部 长 48 字 节 ， 每 次 IO 都 只 耗费 48 字 节 。 

° 1$ 2: TCP/IP 头 部 以 及 ACK 开销 。 在 MSS 值 与 MTU 值 适 配 的 情况 下 ， 每 个 数 
据 帧 均 会 包含 40 字 节 的 开销 ; MSS 值 大 于 MTU 值 的 情况 下 , IP 会 将 数据 包 拆 分 ， 
第 一 个 拆 分 包 耗 费 40 字 节 开销 ， 随 后 的 拆 分 包 每 个 只 耗费 20 字 节 开销 。ACK 包 
的 数量 视窗 口 大 小 以 及 两 端 协议 状态 而 定 ， 数 量 不 定 。 每 个 纯 ACK 包 耗 费 60 F 
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节 开 销 。 
e F3: 以 太 网 帧 头 部 开销 。 每 个 以 太 网 帧 耗费 14 字 节 开销 。 
根据 以 上 描述 ， 上 述 10 共 耗 费 的 开销 为 606 字 节 。 所 以 ， 大 致 估算 出 的 开销 比例 为 
606/(606+8192]=6% 。 当然 这 个 估算 是 不 符合 统计 学 原理 的 ， 在 这 里 只 是 大 致 估算 一 下 


而 已 。 
紧 接着 ， 主 机 又 向 存储 设备 发 出 了 写 入 请 求 ， 这 次 写 入 的 则 是 8 AAK, WE 12.10 
所 示 。 
H1210 写 请 求 
精 第 一 次 主机 向 LUN EA T 16 个 扇 区 的 内 容 ,是 这 个 新 建文 本 文件 的 实际 数据 ， 


dp | 而 第 二 次 写 入 8 个 扇 区 的 内 容 ， 可 能 是 针对 这 个 文件 的 元 数据 。 当 然 在 此 
过 -二 只 能 做 一 个 大 致 的 猜测 。 若 想 追 究 到 底 也 并 不 难 ， 但 是 我 们 在 此 就 不 做 过 多 分 
MT. 


下 图 是 在 向 某 LUN 复制 一 个 大 文件 时 抓 取 的 数据 包 。 如 图 12.11 所 示 , 主机 每 次 10 请 
求 写 入 的 扇 区 数 变 成 了 128， 也 就 是 64KB 的 数据 。 从 数据 包 内 容 中 ， 可 以 看 出 这 个 文件 好 
像 是 一 个 视频 文件 ， 而 且 是 POET 的 于 国电 视 剧 。 


B2 复制 一 个 大 文件 
于 Socket 的 缓冲 区 一 般 为 64KB， 所 以 上 层 程序 每 次 调用 发 送 给 Socket 最 大 的 数据 
长 度 也 被 限制 在 64KB。 由 此 就 可 以 计算 出 图 12.11 中 的 这 个 10 将 数据 写 入 了 LBA305768 一 


LBA305895 这 128 个 扁 区 中 。 如 果 此 时 还 需要 接着 写 入 新 数据 而 同时 LBA305895 之 后 的 
扇 区 还 是 空闲 状态 的 话 ， 文 件 系统 便 会 继续 向 其 后 的 扇 区 继续 写 入 。 所 以 ， 图 12.12 中 所 
示 的 10 向 LBA305896 一 LBA306023 这 16 AAKA T 64KB 的 数据 。 如 果 文 件 依然 没有 
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4n 
E 


则 继续 按照 这 个 逻辑 写 下 去 。 


n or 
125 0.051877 


PE ETTET 
10.128.128.19 Tee 


Tp sapap60 > 2960 [ack] 
ce Sapopeo > 2960 [acK] 
129 0.052861. Tee sapdp60 > 2960 [acK] 


= DPO: Disable page out 1s DISABLED (cache this data) 
FUA: Read from cache if possible 
FUA NV: Read from volatile or non-volatile cache permitted 


c 


-..0 0000 = Group: 0x00 
Transfer Length: 128 
vendor unique - 0, Naca - D, Link - 0 

[a scsz:Paylond. (wrfteCi0) mequess: ca) 


0-00 30 90 00 00 00 
D 01 80 21 b4 


H212 连续 的 64KB SA 


12.4.3 实例 三 : 文件 系统 位 图 


图 12.13 一 图 12.16 所 示 的 Trace 结果 是 在 通过 主机 上 的 文件 系统 ， 将 500MB 的 数据 
从 一 个 写 满 数据 的 1GB ISCSI LUN a 
图 12.13 为 删除 500MB 数据 时 抓 取 的 数据 包 。 


0020 2a 00 
0030 &i 10 06 dS 


xi 

Ed 

io" perse a Qn 

AE EHE CES 
F 


iacet sesr: WENtecy0) Lun: 0x00 CLDA: 0xoo0a 
XO, 2200 > a303 Dor] Seariat Ackisa607? it 
{Scsi scen: maspongn Luns Ox09 Groce KC 
Tep Ses > 3260 [acK] Sed-37298 ck a32 wi 
Tee Fes segrane of a reas sanotad pou 

TEP — [Ten segnent of a reassewled POU 


B? 13 ”删除 500MB 的 数据 


于 文件 系统 从 磁盘 上 删除 数据 的 过 程 中 ， 只 会 修改 相关 的 链表 ， 从 元 数据 中 抹 掉 相 
应 的 记录 ， 而 不 会 去 抹 掉 或 者 覆盖 被 删除 的 文件 原来 所 对 应 的 扇 区 上 的 任何 数据 。 所 以 虽 
然 删除 了 500MB 的 数据 ， 但 是 真正 的 10 数据 远 小 于 500MB。 本 例 中 ， 这 个 过 程 只 交互 了 
163 个 数据 包 。 


X 


在 前 51 个 数据 包 中 ， 所 有 10 均 为 写 操作 ， 每 个 大 小 均 为 8 个 扇 区 (4096 字 节 ， 被 分 
个 数据 帧 )。 可 以 判定 这 些 10 其 实 都 是 在 更 新 文件 系统 元 数据 。 
从 第 52 一 第 80 个 数据 包 为 一 个 80 扇 区 的 写 10， 如 图 12.14 所 示 。 


成 三 
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[= 


pos 
2107 10.128.125.394 


28,194 
B 128.128.194 
72 14.432179 10:128.128.294 
T3 14.452188 10.128.128.124 
Ja 14.452197 10.128.128.194 

28.194 


[rce semet cf a re 
F 


assenbled PoU] 


Jc [rcp segment cf a rsassenbled pou] 
TCP ITcp segment of a reassenbled Pou] 
TCP [rcp segment of a reassenoled Pou] 
ICP — [TC segment of a reassenoled POU] 
ICP [TCP segment cf 2 reassenoled POU] 
TC [icp segment cf a reassenoled POU] 
Tee Segment of a reassembled pou] 
TCP [rcp segment Gf 3 reassembled Pou] 
To [rep segment cf 3 reassembled Pou] 
TCP [rcp segment cf 3 reassenoled Pou] 
TCP [Tcp segment of a reassemoled Pou] 
TCP — FTcP segment of a reassenoled PO] 
Te — [WP s Gf 3 reassentled Pou] 
IC [TCP segment of 3 reassenoled PU] 
CP 


[rcp seoment of 3 roassanbled pou) 


u 


更 新 的 元 数据 ， 就 是 本 书 前 文中 提 到 过 的 文件 系统 位 
每 个 位 来 表示 对 应 磁盘 分 区 中 的 每 个 块 (或 


fb, 其 中 用 


opcode: 

Flags: 

Logical Block address (DA): 1044473 
9 0000 - Group: 0x00 


O46), #5301460), #541460), #55C1460), 4551460), 


B1214 文件 系统 位 图 
分 析 这 个 10 的 实际 内 容 ， 发 现 其 包含 了 很 多 的 0xff， 即 二 进 制 的 11111111。 这 个 IO 


图 ( 见 5.7.4 节 )。 位 图 是 一 个 元 数据 文 
TOR. 视 设 计 不 同 而 定 ) 是 否 正在 被 某 


个 文件 所 占用 。 由 于 本 例 中 ，LUN 上 依然 留 有 一 半 的 数据 ， 所 以 依然 有 一 半 的 簇 被 文件 占 
用 着 。 这 些 簇 也 就 是 图 中 被 标明 为 0xff 字 节 所 对 应 的 徐 。 被 标明 0x00 的 字 节 则 对 应 着 磁盘 
上 上 未 被 文件 占用 的 空闲 块 ( 徐 )， 但 不 是 说 这 些 空 闻 块 中 “没有 数据 ”或 者 “数据 为 全 0”。 
扇 区 中 的 数据 可 能 为 全 0， 但 是 对 于 一 块 已 经 使 用 过 的 磁盘 ， 扇 区 中 


对 于 一 块 甸 新 的 磁盘 ， 


会 保 


BUR wi o 


可 L 


经 几乎 都 是 空闲 块 了 。 


读者 可 以 自行 操作 并 分 析 一 下 ISCSI 以 及 文件 系统 的 逻辑 。 但 是 要 注意 
上 的 文件 系统 是 有 缓存 的 ， 当 向 LUN 做 了 一 次 操 
或 者 十 几 秒 都 有 可 能 ), 然后 才 批 量 Flush 到 硬盘 (LUN) 上。 所 以 此 时 一 定 要 保持 网 卡 抓 包 软 
件 继续 执行 抓 取 ， 直 到 十 几 秒 钟 之 后 ， 流 量 面板 中 没有 新 的 数据 
止 抓 取 ， 获 得 Trace 数据 。 
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图 12.15 所 示 的 数据 是 在 将 那个 LUN 
看 出 , LBA1044425 以 及 随后 (包括 其 自身 ) 的 56 个 扇 
只 是 一 部 分 , 还 可 能 有 其 他 扇 区 也 用 来 存放 位 图 ]。 由 于 删除 文件 导致 LUN 上 
所 以 文件 系统 必须 修改 位 图 映射 表 ， 这 就 产生 了 图 12.15 H 
操作 。 通 过 数据 包 内 容 可 以 看 出 ,位 图 


bh 剩 余 的 数据 全 部 删 


留 很 多 以 前 被 删除 文件 的 “尸体 ”。 这 些 “ 尸 体 ” 会 被 随后 的 对 这 个 遍 


P 第 246 个 数据 
几乎 所 有 字 节 都 为 0x00。 这 就 说 明 


区 的 写 10 数据 


除 的 过 程 中 所 抓 取 的 。 
区 为 存放 位 图 


的 扇 区 (当然 这 
的 室 闲 块 增加 ， 
包 所 对 应 的 写 10 
上 时 LUN 上 已 


点 ， 由 于 主机 


FE 之 后 ,会 被 文件 系统 缓存 一 段 时 


IJLE 


包 被 抓 取 到 ， 此 时 方 可 停 


第 ] 2 B 异军突起 一 存储 网 络 的 新 军 IP SAN 


25» 32.90:88 10. 


1888888888888888888888888 


B1215 文件 系统 位 图 
12.5 ISCSI 磁盘 阵列 


当年 FC 曾 革命 的 时 候 ， 可 谓 是 稻 麦 烈 烈 ， 气 壮 山河 。 当 时 ， 那 场 革命 对 磁盘 阵列 架构 
的 改变 真是 太 彻底 了 ， 所 以 至 今 人 们 仍然 记忆 狂 新 。 而 TCP/IP 想 在 已 经 被 FC 革命 过 的 江 
湖上 再 闹 出 点 动静 来 ， 可 就 不 是 那么 容易 了 。 上 毕竟 TCP/IP 所 依靠 的 以 太 网 相对 于 FC 来 说 ， 
都 属于 包 交 换 网 络 , 而 且 很 多 概念 都 类 似 甚至 相同 。 很 多 盘 阵 厂商 并 不 看 好 TCP/IP 的 介入 。 
但 是 最 终 还 是 有 一 批 喜 欢 标新立异 、 敢 于 创新 的 厂商 ， 举 起 大 旗 来 支持 TCP/IP. 

图 12.16 便 是 一 个 典型 的 ISCSI 磁盘 阵列 的 基本 架构 。 可 以 看 到 ， 其 前 端 10 设备 就 是 
普通 的 以 太 网 卡 。TCP/IP 以 及 ISCSI 逻辑 均 运 行 在 主 内 存 中 。 后 端的 磁盘 可 以 以 任何 方式 
接 入 总 线 , 甚至 可 以 是 独立 的 磁盘 阵列 。 磁盘 经 过 VM 虚拟 化 层 之 后 ,通过 前 端 接口 供 主 机 
访问 ,1SCSI 盘 阵 与 FC 盘 阵 模样 差不多 , 只 不 过 前 端 接口 成 了 以 太 网 口 而 已 。 NetApp 的 FAS 
系列 产品 在 同一 个 控制 器 上 实现 了 多 种 协议 的 接口 ， 包 括 ISCSI FCP, CIFS, NFS 以 及 其 
他 的 一 些 基于 TCP/IP 的 数据 访问 协议 。 


供 
IE 


圆 12.16 ISCSI 盘 阵 架构 示意 图 
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VM X 7j Volume Manager, Virtualization Manager. 


我 们 可 以 发 现 ， 这 人 台 盘 阵 的 架构 与 PC 无 异 。 的 确 ， 不 管 是 主机 还 是 磁盘 阵列 ， 它 们 都 
是 由 计算 机 系统 的 老 三 样 : CPU、 内 存 、 外 设 组 成 的 。 其 所 实现 的 功能 ， 关 键 是 靠 所 运行 的 
软件 。 主 机 上 的 老 三 样 运行 的 是 处 理 业务 逻辑 的 应 用 程序 ， 而 运行 在 盘 阵 老 三 样 上 的 则 是 
专门 处 理 通过 不 同 网 络 协议 传输 进来 ， 或 者 出 去 的 SCSI 指令 以 及 优化 磁盘 读 写 的 程序 。 从 
本 质 上 来 说 ， 它 们 二 者 是 相同 的 ， 只 不 过 是 分 工 不 同 而 已 。 


z 


m 正 因为 它们 本 是 同根 生 ， 所 以 相 前 又 何 太 急 呢 ?PC 只 要 运行 了 盘 阵 上 的 软件 ， 
示 | 就 是 一 台 盘 阵 ; 相反 ， 盘 阵 如 果 运 行 了 应 用 程序 ， 则 就 可 以 当成 一 台 主机 来 
D iR. 
目前 ,几乎 各 种 操作 系统 都 已 经 有 了 1SCSI Initiator 软件 .有 些 操 作 系统 ,比如 Windows, 
Linux 等 还 有 了 ISCSI Target 软件 。 它 们 安装 了 Target 软件 ， 也 就 变 成 了 盘 阵 ， 只 不 过 在 性 
能 、 功 能 和 容量 上 没有 专业 盘 阵 强悍 。 
目前 ，TCP/IP 只 是 占领 了 盘 阵 前 端 接口 的 部 分 阵地 。 而 对 于 后 端 磁盘 接口 的 进攻 ， 也 
不 是 没有 设计 和 尝试 过 。 当 年 FC 可 是 一 举 拿 下 了 盘 阵 的 前 端 和 后 端 。 而 如 今 老 T 能 有 FC 
的 那个 本 事 么 ? 确实 有 些 厂家 的 盘 阵 将 TCP/IP 协议 作为 后 端 磁盘 到 适配器 之 间 的 传输 协 
议 ， 但 是 这 样 的 设计 似乎 并 没有 得 到 认可 。 这 个 结果 也 是 可 以 预知 的 ，TCP/IP 之 所 以 可 以 
与 FC 竞争 ， 就 是 因为 其 优良 的 扩展 性 ， 而 不 是 因为 它 的 速度 。 后 端 需要 的 首先 是 性 能 ， 而 
不 是 扩展 性 。 所 以 ， 后 端 还 是 乖 冬 地 交 给 FC 才 是 明智 的 选择 。 


12.6 IP SAN 


后 来 ,人 们 索性 将 ISCSI 为 代表 的 以 TCP/IP 作为 传输 方式 的 网 络 存储 系统 称 作 IP SAN, 
即 基 于 IP 的 存储 区 域 网 络 。 值 得 说 明 的 是 ，IP SAN 并 不 一 定 要 用 以 太 网 作为 链 路 层 ， 可 以 
用 任何 支持 IP 的 链 路 层 ， 比 如 ATM(IPoA)、PPP、HDLC， 其 至 是 Fibre Channel 也 可 以 作 
为 IP 的 链 路 层 。 

这 样 ， 就 使 得 IP SAN 的 可 扩展 性 变 成 了 无 限 ， 它 可 以 扩展 到 世界 任何 一 个 有 Internet 
网 络 接 入 的 地 方 。 这 也 是 Internet Small Computer System Interface 名 称 的 由 来 。 

ISCSI 的 方便 和 灵活 性 逐渐 显现 出 了 优势 。 的 确 ， 现 在 还 有 哪 台 主 机 上 不 带 以 太 网 适 配 
器 的 ? 还 有 哪 台 主机 上 不 运行 TCP/IP 协议 的 呢 ? 就 连 大 型 机 设备 都 有 自己 的 前 署 TCP/IP 
处 理 机 了 。 

FC 网 络 虽 然 比 并 行 SCSI 总 线 的 扩展 性 高 了 很 多 , 但 是 相对 于 TCP/IP 的 扩展 性 ，FC 就 
是 小 巫 见 大 巫 了 。 

ISCSI 与 NAS 的 区 别 
虽然 ISCSI 与 NAS 都 是 利用 TCP/IP+ 以 太 网 来 实现 的 。 但 是 二 者 所 传输 的 语言 是 大 相 径 
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庭 的 。NAS 传输 的 是 文件 系统 语言 ， 而 1SCSI 传输 的 是 SCSI 指令 语言 。NAS 设备 上 必须 运 
行 一 种 或 者 多 种 文件 系统 逻辑 , 才能 称 为 NAS; 而 ISCSI Target 设备 上 不 需要 运行 任何 文件 
系统 逻辑 ( 盘 阵 自身 操作 系统 文件 管理 除外 )。 

在 相同 的 条 件 下 ，ISCSI 与 NAS 在 速度 与 性 能 方面 相差 不 大 。 


12.7 ”增强 以 太 网 和 TCP/IP 的 性 能 


老 T 对 IP SAN 可 谓 是 投入 了 一 腔 热血 。 它 想 尽 一 切 办 法 要 提高 TCP/IP 的 性 能 ， 以 便 
与 FC 抗衡 。 

1. Checksum Offload(CO) 

计算 每 个 TCP 包 的 校 验 数据 是 一 件 极其 枯 


燥 乏 味 和 耗费 资源 的 工作 。 由 于 TCP/IP RU 这 均 Broadcom Naiak (TM) Gigabit Ethernet 属性 [id] 
A tou Me duti j 、 NE 而 本] RE NA | 40E 
需要 运行 在 主机 操作 系统 中 ,所 以 计算 校 验 数据 toe rt 


的 任务 当然 要 落 在 主机 CPU 身上 。CPU 不 得 不 
拿 出 额外 的 指令 周期 来 计算 每 个 TCP 包 的 校 验 
数据 。 这 对 于 CPU 处 理 能 力 比较 弱 的 主机 来 说 ， 
性 能 影响 是 不 可 忽略 的 。 

为 了 将 CPU 解脱 出 来 ， 一 种 Checksum 
Offload 技术 被 开发 出 来 。 这 种 技术 将 计算 校 验 
数据 的 工作 完全 转移 到 了 网 卡 的 硬件 上 , 对 于 向 | 
外 发 送 的 TCP 包 , CPU 可 以 不 经 校 验 直接 传送 给 B 12.47 ”网卡 的 Checksum Offload 功能 
网 卡 ， 由 网 卡 芯片 来 做 校 验 ， 同样 ， 对 于 接收 到 
的 数据 包 ， 在 没 提交 到 主机 内 存 之 前 ， 就 已 经 做 好 了 校 验 匹配 。 图 12.17 就 是 Checksum 
Offload 功能 的 一 个 图 示 。 


Ben: 


2. Large Send Offload(LSO) 

TCP 需要 根据 底层 链 路 的 MTU 值 来 适 配 其 每 次 发 送 的 数据 大 小 。 如 果 上 层 传 递 过 来 的 
数据 大 于 其 允许 的 最 大 分 段 长 度 (MSS 值 )， 则 TCP 会 将 这 些 数据 分 成 若干 个 数据 包 发 送 ! 
去 ， 这 就 是 所 谓 的 Large Send。 这 项 工作 目前 也 可 以 被 转移 到 网 卡 上 来 完成 。 

3. TCP/IP Offload(TO) 

TCP/IP Offload 则 干脆 将 TCP/IP 整个 程序 都 放 到 网 卡 硬件 芯片 上 来 运行 。 这 种 特殊 的 
以 太 网 卡 称 为 TOE 卡 ， 即 TCP/IP Offload Engine Card。 图 12.18 是 TOE 卡 在 存储 盘 阵 上 的 
应 用 及 架构 图 。 

4. Security Offload(SO) 

Security Offload 不 仅仅 将 TCP/IP 协议 从 主机 上 Offload 了 下 来 ， 它 还 可 以 在 硬件 上 直 
接 实 现 IPSEC 相关 的 协议 ， 将 对 数据 包 的 加 解密 过 程 也 从 主机 上 Offload 下 来 。 
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12.18 ”使 用 TOE 卡 的 ISCSI 盘 阵 层次 架构 示意 图 


5. ISCSI Offload(IO) 

ISCSI Offload 将 TCP/IP--ISCSI 的 整套 逻辑 都 放 到 网 络 适 配 卡 上 来 运行 。 由 于 ISCSI 的 上 
层 是 SCSI， 所 以 一 张 ISCSI 卡 对 于 主机 来 说 ， 会 表现 为 一 张 SCSI 卡 。 不 同 的 是 ， 这 张 虚拟 
的 SCSI 卡 可 以 设置 其 自己 独立 的 IP 地 址 以 及 其 他 TCP/IP 和 ISCSI 的 参数 。 图 12.19 所 示 
为 ISCSI 硬 卡 在 存储 阵列 上 的 应 用 及 架构 图 。 


Wir LE 
Tes 主板 russe] 
At wes | E scs Dg] 
Terezu |Ù [eror]feroz] || 9699. [emaa] | | 后 4 
^ eraa] Al C | | 
cR E | 为 || 忆 
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sen miu 
E] : 
ma 


H1219 1 FH ISCSI Offload F$) ISCSI 盘 阵 架 构 示 意图 


12.8 FC SAN 节 节 败退 


1. 成 本 问题 

说 来 有 点 惊讶 ， 部 署 FC SAN 的 成 本 是 部 署 IP SAN 的 10 倍 甚至 十 几 倍 。 以 太 网 卡 和 以 
太 网 交换 机 相 比 FC 卡 与 FC 交换 机 便宜 了 很 多 。 所 以 ， 对 于 对 性 能 要 求 不 是 很 苛刻 的 用 户 
来 说 ， 部 署 IP SAN 无 疑 是 性 价 比 最 高 的 办 法 。 

2. 可 扩展 性 问题 

FC 是 一 个 专用 网 络 。 虽 然 FC 当初 是 作为 像 以 太 网 一 样 的 通用 的 网 络 传输 技术 被 设计 
出 来 ， 但 是 目前 ， 其 专门 被 用 作 存储 网 络 ， 也 算是 命 该 如 此 。FC 长 期 被 束缚 在 这 样 一 个 狭 
小 的 环境 内 ， 不仅 造成 了 其 不 思 进 取 的 性 格 ， 而 且 也 造成 了 其 成 本 的 居 高 不 下 。 所 以 FC 很 
难 被 扩展 出 去 。 
3. 易 用 性 问题 
DUE. BERA FC 这 么 不 开放 ， 那 么 就 注定 难 用 。 
个 IP 存储 网 络 要 复杂 ， 对 技术 人 员 的 要 求 也 比较 高 。 
4. 兼容 性 问题 
T FC 极其 不 开放 ， 即 使 FC 有 相关 的 标准 ， 但 不 同 的 生产 三 家 出 产 的 FC 设备 ， 有 时 


ng 


P 署 一 个 FC 存储 网 络 比 部 署 一 
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候 并 不 一 定 会 完全 兼容 ， 总 会 出 现 一 些 莫名 其 妙 的 问题 。 相 比 来 说 ，TCP/IP 由 于 已 经 在 完 
全 开放 的 环境 中 摸 拒 深 打 了 很 长 的 时 间 ， 所 有 已 经 被 发 现 的 bug 也 都 被 修复 了 。 


12.9 ISCSI 配置 应 用 实例 


本 实例 用 一 台 NetApp FAS3050 系列 磁盘 阵列 充当 ISCSI 的 Target 设备 , 用 一 台 运 行 于 
Windows XP 操作 系统 的 PC 充当 ISCSI Initiator 端 ，PC 上 的 ISCSI Initiator 软件 为 微软 的 
MS ISCSI Initiator2.07 版 本 。 本 例 中 将 描述 如 何在 存储 设备 上 一 步 步 的 创建 LUN, 然后 映射 
E 机 使 用 。 


12.91 第 一 步 : 在 存储 设备 上 创建 LUN 


1. 创建 Aggregate 

所 谓 Aggregate 是 指 RaidGroup 的 组 合 ， 一 个 Aggr(Aggregate) 可 以 包含 多 个 RG(Raid 
Group]。 如 图 12.20 所 示 ， 这 台 盘 阵 在 其 后 端的 0a 和 Ob 个 FC 通道 下 各 连接 了 两 台 扩 展柜 
(Shelf1 和 Shelf2)， 每 台 扩展 柜 包 含 14 块 硬盘 ， 这 样 每 个 通道 包含 了 28 块 硬盘 。 


slot 0: Fc most adapter Oa Ceual-ch 
Firmwar i 


2322 rev. 3, 64-bit, L-port, UR) 


vod e200:00F542 


? gvsvos3say 
i? :NEAPP g 


3520 

US 

SG 

VSIA 
Eo 


B NETAPP 
i NETAPP 


:NETAPP 


3, 64-bit, L-port, <ve>) 
00:007542 


Sveatsa) 


220 系统 硬盘 列表 
图 12.21 所 示 的 是 系统 中 目前 还 没有 被 分 配 到 RG 中 的 磁盘 ， 标 为 Spare， 共 16 块 。 


如 图 12.22 所 示 ， 使 用 “aggr create” 命 令 创建 一 个 aggr。“-r 6” 参 数 表示 每 个 RG 
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最 大 允许 包含 6 块 磁盘 ， 如 果 超 过 6 块 ， 则 自动 形成 男 一 个 RG。“-t raid_dp ”参数 表示 
RG 的 RAID 类 型 为 RAIDDP( 这 种 RAID 类 型 本 书 不 做 描述 ， 具 体 可 以 在 Internet 搜索 ]。12 
表示 这 个 aggr 包含 12 块 盘 . 计 算 一 下 这 样 正好 可 以 形成 两 个 RG, 每 个 RG6 块 盘 。“aggrtest” 
为 这 个 aggr 的 名 字 。 


Spare diske 


Device 


Spare disks for block or zoned checksum 


Fona] volumes or aggregates 


spare 91.32 oa — 1 8 PCA — 000 1360007278325000 137422/281447144 (not zeroed; 
Spare 9u23 0 1 7 rc 00 136000/278528000 137422/261442144 (not zeroed 
Spare 04:4 0a 1 8 m 0000 130000/278328000 137422/251447144 (not zeroed 
Spare 9235 oa 1 9 FA 二 CO 13000/278328000 137422/251342144 (not Zeroed 
Spare 0:26 0a 1 10 rA - 0000 136000/278528000 137422/381442144 (not zeroed 
Spare i27 oa 1 11 m FEAL 10000 136000/278328000 137422/28:442144 (not zeroed) 
spare 9428 92 1 12 & FCAL 10000 136000/278528000 137422/281442144 tot zeroed 
spare 0029 oa 1 DB - FEAL 10000 136000/278528000 137422/281442144 (not zeroed 
Share 438 oa 2 € 二 FECAL 10000 136000/278323000 137422/281442144 (moi zeroed 
spare 939 oa 2 7 FCAL 10000 136000/278528000 137422/281442144 (not zeroed 
spare De40 oa 2 a FCAL 10000 136000/278528000 137422/281442144 (not zeroed 
Spare Drap oa 2 9 Er H 337432/25344?144 (not zeroed 
spare 0u42 oa 2 10 二 FCAL 10000 136000/278528000 137422/281442144 (not zeroed: 
Spare D43 Qa 2 11 FCAL 10000 136000/278328000 137422/281442144 (not zeroed 
Spare Di44 oa 2 12 m: FEAL 10000 136000/278528000 137422/281442144 (Ol zeroed 
spare 64$ oa 2 33 FCAL 10000 136000/278528000 13/422/281442144 (not zeroed 


12.21 Spare 硬盘 列表 


Heleniends agar cresta ageres -r 6 -t raf oa 
EB moea au de Ib aser teli ctn o piak eNet shelf aa Deve 
HEU E 1E DES SIE REESE operta aa tay aa eve 
er Bo o PPAR uA] ie SC ERO artt qo 1 y 
tlon ot ois agg cest pest wf 2 ay 10 Dao 
tast ids ceng ged ruer sto 
AT ages /er roonss shelf yit Deve 
Sree PP PA ROTER] te presi aar test Tas Garg tse queso 
Ee b jt ZEN SPOT Ae /peor on /ora stet 2 my s Dira 
te mosh SA eae CO igp Selatan Dee 
reap RM d SHE pee perta à ste à ty peram 
Wal is apres aag test Pap ert 2 
ls EIS NS SUI en pterea sn 1 tay a aram 
TEX WIS Men pre onto te 2 t 6 Devon 
[SPEI evpleomrsanos aa She 2 say 7 qna 
Ne eho/ /on 3 shelf 2 say 7 Dataa 
ie PE vet oe ns Hh a y € berae 
MINIS i Hi p vec plesrqt/o 28 stalt 2 say € Darase 


Mice a 
A arasia ta io tette ao eit A 
hna engau: raid. o1: Dok add. 
hara povTAletr ie hor Sax [ovista] ta i 

be aHa 


TLIBANIET ui) EE erba] to leyenda 
ELE, 3 ne 
creation oF an agarogate with 15 obses has compie 
Falamansa P 10 EsTa 00 Est Datckter cat iol. addinotics 


Delo ead 


Aggregate agortest has been added to the system. 


H12 22 创建 aggr 
如 图 12.23 所 示 ， 创 建 好 的 aggr 中 有 两 个 分 别 包含 6 块 盘 的 RG 


Malonsoi» sysconf1 
De rine rat dp) [e sums) 
Tex Jagge test/ple0 (online, normal, active) 
RAIO group /agortest/plexo/rg0 (normal) 


paro bist Device ma SHELF Bav cman pool Type Rem used (ve/blks) phys (w8/b1ks) 


m o: 5 
m io Pe 
à oir TE ioioo 436602/37833 00 1341 AMA Ad 
a i? FCAL 10000 136000/278528000 137422/281442144 
a z s FECAL 10000 156000/278928000 137422/2814 

mois FECAL 10000 135000/273528000 117422/281442144 


RAID group /aggrtest/plexo/rgl (normal) 
paro Disi pev 


MA SHELF Bav chan 


Type am used (va/biks) shys Ca/blks) 


parley m oi CA. 10000 173000/37832 000 
parity 0a 2 
A à i 
eta oa 2 
dira moi 
data Da 2 FECAL 10000 135000/273528000 137422/281442144 


E223 aggrtest 中 包含 两 个 RG 


如 图 12.24 所 示 ， 刚 创建 好 的 aggr 名 为 aggrtest， 大 小 为 955GB， 其 中 给 快照 预 留 的 
空间 为 47GB， 实 际 可 用 在 线 存 储 用 户 数 据 的 空间 为 908GB。 


MelonHead» dr -an 


Aggregate total used aail capacity 
aggr2 34030 124b 34066 

aàr2/. snapshot. 1768 63M8 1768 

agarl 340GB 20cB 32068 ex 
aggr1/.snapshot 1768 E 1766 ox 
volo 95GB 822M8 $4GE 1% 
vo10/. snapshot 23GB 57M8 2368 ox 
aggrtest 90868 164KB 908GE ox 
adgrtest/. snapshot 47GB p 476b ox 


MeTonHead> I 


图 12.24 aggr 的 空间 分 布 
2. 在 aggr 中 创建 Vol 


Vol, B, RA 


aggr 之 上 的 一 层 虚 拟 化 产物 ， 目 的 是 为 了 更 加 灵活 地 取 用 aggr 
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所 提供 的 存储 空间 。Vol 可 以 任意 创建 删除 ， 任 意 增加 或 者 减 小 容量 。 
如 图 12.25 所 示 ， 在 aggrtest 中 创建 了 一 个 名 为 voltest， 然 后 将 offline 删除 。 这 个 过 
程 非常 简单 ， 命 令 发 出 之 后 立即 生效 。 


Melondead» vol create voltest aggrrest 500G 
eelan oF velums "welzert! with size 300g on containing aggregate 
jagorcest^ has completed. 
OnHead» vol offline voltest 
Thu on 19 14:17:09 CST [WelonWead: vafl.vvol.offlineinfo]: volume 'voltest' has been set tamporarily offline 
volume "voltest! is row offline. 
Melondeaü» vo] destroy voltest 
Are you sura you want to destroy this volume? 
Thu Yun 19 1417:16 CST [welonütad: wafl.vvol.destroyediinfo]: volune voltest destroyed. 


Wt 
[1225 创建 /删除 一 个 Vol 
如 图 12.26 所 示 ， 在 aggrtest 上 创建 两 个 卷 : iscsil 和 iscsi2， 大 小 均 为 300GB. 


deipnieags vol create 1scs11 aggrtest 3005 
creation of volume "iscsil size 300g on containing aggregate 
aggrrest pas pe 

welonnead» vol create 15cs12 3005 
zreatlon of volume "1scs12" with size 300g on containing aggregate 
ne ee 


1226 创建 两 个 新 卷 


3. 在 Vol 中 创建 LUN 

LUN 是 最 终 提 交 给 主机 使 用 的 一 块 存储 空间 ，NetApp 将 LUN 容纳 于 Vol 的 空间 之 下 ， 
并 且 LUN 也 可 以 任意 增 、 删 、 扩 、 缩 。 

如 图 12.27 所 示 ， 在 每 个 Vol 里 分 别 创建 一 个 大 小 为 200GB 的 LUN. 


Nelonread» lun create [50 让 avingeysoval 人 55 和 位 25S1Tura 
un 


/ 
e: created a LUN Of size: 200.00 (214778; 


Tun 
weloneado M 
B 2.27 创建 LUN 


4. 创建 Igroup 并 映射 LUN 

所 谓 Igroup， 是 用 来 管理 LUN 一 主机 映射 关系 的 。 本 书 前 文中 描述 过 这 种 灵活 的 映射 
XR. Igroup 就 像 一 个 桥梁 ， 主 机 和 LUN 如 果 都 映射 到 某 个 lgoup， 那 么 这 台 主 机 就 可 以 
访问 这 些 LUN。 

如 图 12.28 所 示 ， 创 建 一 个 名 为 IG 的 1SCSI 类 型 的 Igroup， 并 给 它 映射 到 了 一 个 主机 
端的 ISCSI Initiator 的 IQN 地 址 。 接 着 ， 将 两 个 LUN 都 映射 到 了 这 个 Igroup 中 。 


Me1onHead> igroup create -i -t windows IG iqn.1991-05.com.microsoft :dongz-xp. ab. iscsi1. com 

MelonHead» lun map /vol/iscsil/iscsilunl IG 

Thu Jun 19 16:58:00 CST [MelonHead: lun.map:info]: LUN /vol/iscsil/iscsilunl was mapped to initiator group IG-0 
velonHead> lun map /vol/iscsi2/iscsilun2 IG 

Thu Jun 19 16:58:14 CST [MelonHead: lun.map:info]: LUN /vol/iscsi2/iscsilun2 was mapped to initiator group IG-l 
velonHead> B 


[el 1228 创建 lgroup 并 映射 LUN 和 主机 


12.9.2 第 二 步 : 在 主机 端 挂 载 LUN 
1. 确认 主机 端的 IQN 名 称 
确认 主机 端 ISCSI Initiator 的 IQN 名 称 是 否 与 Igroup 中 缩 配置 的 一 致 ,如 图 12.29 所 示 。 
2. 添加 ISCSI Target 端 地 址 
添加 ISCSI Target 端 地 址 ， 发 现 其 上 的 LUN， 如 图 12.30 和 图 12.31 所 示 。 图 12.32 © 
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示 已 经 发 现 ISCSI 目标 ， 但 处 于 未 激活 状态 。 


areis | Persstent Targets | Boundiolnes/Dewces | 


è 


The SCSI protocol ues the iuingifomaion ouniuey 
Mert hin and alerten tagets 


Wielore in 8906 amnios inos 


E 
a 
ERTA 

speci a CHAP secret xu Seni 
Mere meh dara 


or | Cam | o 


B:229 IQN 名 称 
划 


meal Deeom | Targato | Pustot Taranto | Bardveurewvpevees| 
Tamea 


TOTANA VET Dela Deni 


Lom j j 


H1231 添加 完成 


3. 激活 ISCSI 目标 端 ， 发 现 LUN 


Wp 


tr OK 按钮 后 ， 可 以 在 图 12.34 H 


PEH, H 


ER 
‘deni oaget end clch Lope be rep deseme fattet 
MEL ET ot Porat DA a re Toad 
Te 


T7 automaticaly restore th nnesenwhen the span bores 

I cutie mubpah 

nly sect trie aptars F EcSt mur paen software aheady rad 
mieu mode 


dash. 


| 


T 
Dese | mons | feret 


加 12.33 激活 ISCSI 目标 
4. 使 用 LUN 
如 图 12.35 所 示 ， 在 主机 的 磁盘 管理 器 


图 12.32 中 的 LogOn 按钮 ， 如 图 12. 


Type the TP adiens x DONS cane and soe runter af the pata ya 
tod Gheed to sokat seis mda 


W address or DNE nane 


pana e FE 


H1230 添加 ISCSI Target 端 地 址 
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12.32 ”未 激活 状态 的 Target 


33 所 示 。 
标 已 经 连接 ， 此 时 LUN 会 被 主机 识别 到 。 


ros E 
eneal| Discovey Targets | Fertent Targets | Bound Volnes/Desice | 
本 
een pis Eee eren 

Tes 


n 18208 em relapp iG 8081 E] 


s [E e 


e | tme | om 


12.34 ”处 于 激活 状态 的 1SCSI 目标 
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会 发 现 两 块 未 初始 化 的 磁盘 ， 


对 应 的 是 存 
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储 设备 上 的 两 个 LUN。 


B 12.35 新 识别 到 的 两 个 LUN 


如 图 12.36 所 示 ， 初 始 化 之 后 格式 化 这 两 块 磁盘 (LUN)。 


mu 


ji 


FE 


T 
Pu 
i 


B 12.36 初始化 之 后 格式 化 磁盘 


如 图 12.37 和 图 12.38 所 示 ， 这 两 块 磁盘 已 经 可 以 正常 使 用 了 。 


Sues HERE 


12.38 “我 的 电脑 ”显示 的 磁盘 
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12.10 小 结 


IP SAN 出 现 之 后 , FC SAN 的 统治 地 位 被 大 大 地 动摇 了 。FC 目前 唯一 可 以 用 来 与 IP SAN 
抗衡 的 武器 ， 就 是 其 高 速度 。 但 是 这 个 武器 的 震慑 力也 在 降低 。 我 们 可 以 发 现 ， 以 太 网 的 
速度 每 次 革新 都 是 以 10 倍速 为 单位 ， 从 10Mb/s 到 100Mb/s、1Gb/s，10Gb/s 速率 的 以 太 
网 也 已 经 发 布 了 。 而 FC 每 次 革新 均 以 2 倍速 为 单位 ， 从 一 开始 的 1Gb/s、2Gb/s， 到 目前 
正在 被 广泛 使 用 的 4Gb/s 速率 , 而 FC 的 下 一 个 速率 级 别 为 8Gb/s( 或 者 10Gb/s), 而 且 这 个 
标准 还 正在 制定 当中 。 以 太 网 已 经 在 计划 上 抢先 了 FC 一 步 。 不 知道 在 10Gb/s 时 代 ，FC 还 
能 不 能 守住 它 那 仅 有 的 一 点 点 沙漠 绿洲 。 


IP SAN 还 是 FC SAN? 这 丽 怕 真 的 快要 成 为 一 个 信仰 问题 了 。 
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FC 

IP 
协议 之 间 的 相互 作用 
协议 融合 


话说 FC 和 卫 各 占 一 方 ， 谁 也 不 让 谁 ， 互 相 竞 争 了 数 年 ， 两 者 各 立 门 派 ， 势 不 两 
立 。 但 是 “ 夫 天 下 之 势 ， 分 久 必 合 ， 合 久 必 分 ”。 

数 年 来 ， 两 者 在 市 场 上 竞争 的 可 谓 你 死 我 活 。FC 仅仅 拿 着 FC SAN 的 速度 和 稳定 
性 来 炮 IP SAN, 而 IP 也 不 甘 示弱 , 处 处 举 着 可 扩展 性 和 成 本 的 大 旗 , 声讨 FC SAN, 
阅 得 江湖 上 风 风 雨 雨 。FC 凭借 着 它 的 速度 优势 ， 占 据 了 高 端 市 场 ， 而 IP 则 以 成 本 优 
势 在 低 端 市 场 占据 了 一 席 之 地 。 然 而 两 人 谁 都 想 一 统 天 下 ， 把 对 方 彻底 驱逐 出 市 场 ， 
但 是 ， 相 持 数 年 了 ， 谁 也 没 能 把 谁 干掉 。 两 人 都 累 了 ， 这 么 多 年 的 互相 攻击 ， 谁 也 没 
有 取得 丝毫 胜利 ，FC 还 是 稳固 的 占据 高 端 市 场 ，IP 依然 驰 怠 低 端 。 

终于 有 一 天 ，FC 和 IP 决定 握手 言 和 ， 不 再 投入 无 谓 的 人 力 、 物 力 、 财 力 来 和 对 
方 竞争 。 与 其 大 肆 攻 击 对 方 ， 不 如 多 用 点 精力 来 提升 和 发 展 自身 的 技术 ， 同 时 学 习 对 
方 的 技术 ， 取 长 补 短 ， 方 为 正道 啊 ! ! FC 和 IP 彻夜 长 谈 ， 终 于 取得 了 一 致 的 见解 ， 
决定 双方 各 取 所 长 ， 共 同 为 江湖 做 贡献 。 

d. FC 决定 由 IP 入 股 自己 的 公司 ， 给 FC SAN 提供 更 高 的 扩展 性 架构 解决 方 
4; 同时 ，FC 也 入 股 IP 的 公司 ,给 JP 提供 研发 经 费 ， 用 于 其 研发 出 基于 以 太 网 的 、 
新 型 的 、 适 合 存储 区 域 网 络 的 专用 协议 体系 。 


大 话 存储 


网 络 存 储 系 统 原 理 精 解 与 最 佳 实践 


13.4 FC 的 窘境 


入 股 FC 公司 之 后 ，IP 便 开 始 研究 如 何 将 FC 协议 体系 转向 可 扩展 的 、 开 放 的 结构 。 说 
到 可 扩展 且 开 放 的 网 络 传输 协议 , 一 定 非 TCP/IP 末 属 。 可 是 FC 和 TCP/IP 是 完全 两 套 毫 不 
相干 的 协议 体系 ， 如 果 将 FC 全 部 转 为 TCP/IP， 那 岂 不 是 叛变 成 IP SAN 了 么 ? 但 是 如 果 丝 
毫 不 变 ， 那 只 能 是 FC SAN， 还 是 不 具备 开放 和 扩展 性 。 

1. FC 的 扩展 性 问题 

FC 为 什么 扩展 性 差 ? 就 是 因为 如 果 通 信 双 方 距离 太 远 的 话 ， 需 要 自己 架设 光缆 ， 或 者 
租用 电信 的 专线 光缆 ， 这 两 者 成 本 都 很 高 。 如 果 租 用 电信 部 门 的 专线 光缆 ， 则 FC 最 低速 度 
为 1Gb/s， 且 租用 电信 部 门 的 1Gb/s 带宽 的 专线 光缆 ， 其 费用 不 是 一 般 机 构 能 承担 的 。 


e 


i Y 目前 电信 提供 的 专线 接 入 ， 其 骨干 网 一 般 采用 PDH 或 者 SDH 协议 传输 ， 到 终 
示 | 端 用 户 所 能 承受 的 速率 为 2M 的 EL 线路 。 当然 也 可 以 直接 从 高 速 骨干 直接 分 离 
苏醒 出 相对 高 速 的 线路 ， 比 如 OC3，OC48 等 ， 但 是 费用 还 是 过 于 高 昂 ， 无 法 承受 。 


E1 线路 有 自己 的 编码 格式 ， 不 能 将 电信 部 门 接 入 的 光纤 直接 插 到 FC 设备 上 ， 因 为 两 
端的 编码 方式 不 同 ， 不 能 和 局 端的 设备 建立 连接 ， 所 以 需要 增加 一 个 协议 转换 设备 (准确 来 
说 是 协议 隧道 封装 设备 ]， 将 ET 协议 解 封装 ， 转 换 成 协 转 设备 后 面 的 协议 逻辑 ， 比 如 V35 
串口 、 以 太 网 等 其 他 协议 。 目 前 已 经 存在 FC over Sonet. FC over ATM 等 协 转 设备 了 ,不 过 
这 些 专线 的 扩展 性 仍然 不 强 ， 而 且 这 种 方案 以 及 对 应 的 设备 也 非常 昂贵 和 稀少 。 

目前 看 来 ， 如 果 要 扩展 FC 网 络 ， 让 相隔 很 远 的 两 地 之 间 用 上 FC 协议 ， 最 好 的 办 法 就 
是 自己 架设 专用 光缆 ， 可 是 自己 架设 光缆 也 只 能 在 自己 可 控 的 范围 内 ， 比 如 一 个 大 厂区 之 
内 ， 但 是 如 果 是 在 市 内 ， 或 者 两 个 城市 、 两 个 省 之 间 ， 私 自 架设 光缆 是 绝对 被 禁止 的 。 
2. 解决 方案 
怎么 办 ? 首先 ， 要 走出 去 ， 就 一 定 要 租用 电信 部 门 的 线路 。 电 信 提 供 了 两 种 线路 ， 一 
种 是 接 到 Internet 的 线路 ， 也 就 是 接 入 电信 部 门 的 Internet 运营 网 络 ， 通 信 的 双方 都 接 入 ， 
并 且 使 用 TCP/IP 通信 。 另 一 种 ， 就 是 光缆 专线 ， 也 就 是 通信 的 双方 都 接 入 电信 部 门 的 专 
传输 骨干 网 络 ， 这 条 专线 端 到 端的 带宽 由 接 入 提供 商 保证 ， 只 要 两 端的 设备 支持 ， 其 上 可 
以 运行 任何 上 层 协 议 。 上 层 帧 会 被 底层 封装 协议 (比如 E1 等] 再 成 帧 传送 到 电信 部 门 骨干 传 
输 网 络 中 。 
虽然 Internet 接 入 可 以 获得 100Mb/s 或 者 1000Mb/s 的 速率 , 但 是 这 只 是 本 地 带宽 (从 
本 地 到 局 端 设备 之 间 的 链 路 带宽 ]， 端 到 端的 带宽 ， 以 现在 的 电信 部 门 TCP/IP 网 络 环境 ， 
除非 购买 接 入 商 的 QOS 或 者 MPLS TE 服务 , 否则 没有 人 能 够 保证 两 点 间 的 通路 带宽 (速率 )] e 
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了 如果 两 地 之 间 相 距 很 近 ， 那 么 不 妨 考虑 Internet 链 路 。 因 为 如 果 两 地 同时 接 入 
示 | 相同 城市 的 ISP 网 络 ， 数 据 包 被 路 由 的 跳 数 就 不 会 很 高 ， 甚 至 有 可 能 只 经 过 1 
5 跳 或 者 2 跳 便 可 以 被 对 方 收 到 。 更 有 甚 者 ， 同 城 的 两 地 可 能 连接 在 局 端的 同一 
台 设备 上 。 这样 可 获得 的 带宽 速率 就 会 非常 可 观 ， 就 可 以 像 在 内 网 通信 一 样 利 
用 VPN 来 让 两 个 站 点 之 间 联 通 。 但 要 澄清 一 点 ， 由 于 Internet 链 路 不 能 时 刻 保 
障 稳定 的 带宽 ， 所 以 这 种 方法 只 适合 对 数据 传输 实时 性 要 求 不 高 ， 但 同时 又 要 
求 高 带宽 的 情况 。 


而 专用 线路 虽然 保证 了 带宽 ， 但 是 只 能 承受 E1 等 低速 专线 ， 且 价格 相对 Internet BEA 
贵 很 多 。 而 且 目 前 只 有 V35 一 E1 封装 解 封 设备 和 E1 一 以 太 网 封装 解 封 设备 ， 并 没有 
E1—FC 封装 解 封 设备 。 而 V35 串口 和 以 太 网 这 两 种 二 层 协议 ， 都 普遍 被 用 来 承载 IP 协议 ， 
所 以 目前 来 说 ，E1 一 般 用 来 承载 IP 作为 网 络 层 协议 。 有 些 路 由 器 自 带 E1 封装 解 封 模块 ， 
可 以 不 用 外 接 协 转 ， 直 接连 接 从 光端机 分 离 出 来 的 一 路 或 者 几 路 G703 或 者 BNC 接头 ， 直 
接 编 码 与 解码 E1 协议 。 但 是 这 些 也 都 是 IP 路 由 器 ， 和 FC 丝毫 没有 关系 。 
可 以 看 出 ，FC 如 果 脱 离 了 “后 端 专用 ”这 四 个 字 到 开放 和 领域， 显然 是 无 法 生存 的 。 而 
IP SAN， 则 软 硬 通 吃 ， 只 要 有 IP 的 地 方 , 不管 其 下 层 是 什么 链 路 协议 ， 就 可 以 部 署 IP SAN. 
这 就 是 为 何 称 TCP/IP 为 协议 中 的 秦始皇 的 原因 , 秦始皇 统一 了 货币 ， 到 哪里 都 通用 ， 同 样 ， 
TCP/IP 也 统一 了 下 层 凌 乱 的 各 种 协议 。 


13.2 ”协议 融合 的 迫切 性 


说 到 这 里 ， 租 用 Internet 线路 ， 只 能 承载 I P， 而 租用 点 对 点 专线 ， 也 普遍 用 来 承载 IP， 
可 能 感觉 FC 的 扩展 似乎 就 是 死路 一 条 了 。 但 是 ，IP 想起 了 ISCSI， 当 初 自己 不 就 是 把 SCSI 
协议 给 封装 到 了 TCP/IP 协议 中 来 传输 ， 才 扩展 了 SCSI 协议 么 ? 也 就 是 说 如 果 将 一 种 协议 
封装 到 另 一 种 协议 中 传输 ， 就 可 以 使 用 另 一 种 协议 带 来 相应 的 好 处 了 。 不 妨 就 这 么 假设 一 
下 ，FC 不 可 扩展 ，TCP/IP 扩展 性 很 强 ， 那 么 如 果 把 FC 协议 封装 到 TCP/IP 协议 中 来 传输 ， 
是 不 是 也 可 以 获得 TCP/IP 的 扩展 性 呢 ? 这 个 想法 比较 大 胆 ， 因 为 FC 本 身 也 是 作为 一 种 可 
以 传输 其 他 协议 的 协议 ，FC 甚至 可 以 承载 中， 作为 IP 的 链 路 层 ， 那 么 为 什么 现在 却 反 过 头 
来 需要 用 IP 来 承载 呢 ? 


Protocol over Protocol，PoP， 即 一 种 协议 被 打包 封装 或 者 映射 到 另 一 种 协议 之 
加 | ees 这 种 思想 在 网 络 协议 领域 中 经 常 使 用 。 我 估 且 称 其 为 “协议 融合 ”， 认 为 
其 已 经 可 以 形成 一 个 独立 的 科目 。 


要 谈 协议 融合 ， 还 得 从 以 太 网 和 TCP/IP 说 起 。 
以 太 网 和 TCP/IP 一 一 不 能 不 说 的 故事 
前 面 已 经 详细 介绍 了 以 太 网 和 TCP/IP 协议 。 我 们 知道 ， 以 太 网 是 一 个 网 络 通 信 协 议 。 
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记得 某 人 曾经 说 过 一 和 句 话 : 


“网 络 就 是 水 晶 头 。” 这 和 句 话 比较 有 意思 ， 它 反映 
出 说 这 向 话 的 人 对 网 络 的 不 了 解 ， 但 是 也 证 明 他 平时 所 见 到 的 网 络 ， 确 实 只 


-本 水晶 头 ， 且 以 太 网 普遍 使 用 水 晶 头 ， 那 么 “网 络 就 是 水 晶 头 ”这 向 话 ， 也 不 是 


那么 可 笑 了 。 它 从 某 种 角度 也 反映 出 了 以 太 网 在 当今 的 普及 程度 。 


前 面 讲 到 以 太 网 是 可 以 寻 址 的 ， 也 就 是 说 它 涉及 了 OS 第 三 层 网 络 层 的 内 容 。 大 家 都 
连接 到 一 个 以 太 网 环境 中 ， 不 需要 任何 其 他 上 层 协议 ， 就 可 以 区 分 开 对 方 ， 进 行 通 信 。 既 
| 么 连 新 闻 联播 的 主持 人 都 知道 Internet 是 利用 TCP/IP 协议 而 不 是 以 太 网 来 通 


然 这 样 ， 为 人 


信 呢 ? 为 何 我 们 总 是 说 以 太 网 +TCP/IP 协议 二 元 组 ， 而 不 是 仅仅 说 以 太 


协议 ? 


IP 讲 起 。 


因为 以 太 网 和 TCP/IP 协议 是 逻辑 上 分 开 的 ， 它 们 各 自 
总 是 把 他 们 组 合 起 来 说 呢 ? 它们 之 间 有 什么 割舍 不 断 的 恩 恩怨 怨 呢 ? 这 


1. IP 本 位 
前 面 也 说 过 了 ，IP 就 是 一 个 身份 标志 ， 一 个 用 来 与 其 他 人 区 别 的 一 个 ID。 以 太 网 协议 


网 ， 或 者 TCP/IP 


是 不 同 的 协议 体系 ， 那么 为 什么 
其 中 原因 ， 还 要 从 


中 规定 的 MAC 地 址 ， 从 原理 上 讲 ， 就 足够 用 来 区 分 网 络 中 各 个 节点 了 。 但 是 前 面 也 分 析 过 ， 


完全 靠 MAC 来 寻 址 的 缺点 : 一 是 MAC 地 址 太 长 ，48bit， 用 于 路 由 寻 址 时 效率 太 低 ， 二 是 
世界 上 并 不 是 每 个 环境 中 都 用 以 太 网 来 建立 网 络 的 ， 除 了 以 太 网 ， 还 有 其 他 各 种 方式 的 网 


络 系统 ， 各 
要 一 个 秦 始 


自 有 各 自 的 寻 址 方式 ， 如 果 要 让 所 有 类 型 的 网 络 之 间 无 障碍 的 相互 通信 ， 就 需 


皇 来 统一 天 下 的 货币 。 


IP 就 是 这 个 被 选中 的 货币 。 不 管 以 太 网 , 或 者 串口 协议 , 或 者 FD 等 类 的 局 域 网 方式 ， 


我 们 最 终 都 


要 让 其 之 间 相 互通 信 ， 才 能 形成 Internet。 


s 如 果 你 是 秦始皇 ， 你 会 怎么 来 处 理 各 国 众多 的 货币 呢 ? 虽然 秦始皇 最 终 将 其 他 


- | 货币 回收 废除 了 , 但 是 IP 却 不 能 在 短 时 间 内 将 所 有 网 络 形式 都 废除 ,而 用 以 太 
5 网 统一 ， 因 为 现在 已 经 不 是 一 个 人 就 说 了 算 的 时 代 了 。 秦 始 皇 可 以 在 各 个 使 用 


不 同 货币 的 地 方 设立 一 个 专门 的 党 换 机 构 ， 只 要 到 了 这 个 地 方 ， 就 欧 换 成 这 里 
使 用 的 货币 。 


司 样 ， 
交换 成 这 个 
换 机 制 ， 是 


我 们 也 给 每 个 网 络 设立 一 个 网 络 地 址 兑换 设备 ， 也 就 是 协议 ， 


每 种 网 络 要 
中 继 网 络 中 
对 于 以 


类 型 的 货币 ， 


网 站 服务 的 


想 用 IP 来 统一 ， 都 必须 运行 各 自 的 ARP 协议 ， 比 如 以 太 网 中 
内 ARP 协议 等 。 


将 统一 的 IP 地 址 


网 络 的 自用 私有 地 址 ， 用 这 种 方式 实现 各 种 类 型 网 络 的 相互 联通 。 网 络 中 的 竞 
通过 ARP 协议 实现 的 ，ARP 协议 可 以 将 一 种 网 络 地 址 映射 成 另 一 种 网 络 地 址 。 


的 ARP 协议 ， 帧 


太 网 来 说 ，IP 就 是 统一 货币 ，MAC 就 是 以 太 网 货币 。 另 外 ， 还 有 各 种 各 样 其 他 


比如 主机 名 (Hostname)、 域 名 等 。 大 家 在 访问 网 站 的 时 候 ， 
民 务 器 来 建立 通信 ， 获 取 它 的 网 页 和 其 他 服务 ， 在 IE 浏览 器 中 


其 实 就 是 和 提供 
hb 输 入 这 个 网 站 的 


域名 之 后 ，DNS 兑换 程序 会 自动 向 DNS 服务 器 查询 ， 获 得 这 个 域名 所 对 应 的 IP 地 址 ,然后 
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IP 地 址 与 服务 器 通信 。 
数据 包 带 着 IP 地 址 到 了 服务 器 所 在 的 局 域 网 之 后 , 会 通过 局 域 网 的 路 由 器 发 出 ARP 请 
SK, 来 把 IP 地 址 再 兑换 成 服务 器 所 在 局 域 网 络 的 地 址 , 如 果 服 务 器 所 在 的 局 域 网 是 以 太 网 ， 
则 对 应 成 MAC 地 址 ， 然 后 通过 以 太 网 交换 设备 ， 找 到 这 个 MAC 地 址 所 在 的 交换 机 端口 ， 
将 数据 包 发 向 这 个 端口 ， 从 而 被 服务 器 收 到 。 
为 什么 要 经 过 多 次 兑换 呢 ? 首先 把 IP 转换 成 域名 ， 是 为 了 方便 记忆 ， 不 必 记 忆 那 些 复 
杂 的 IP 地 址 。 其 次 把 MAC 转换 为 IP， 是 为 了 天 下 统一 ， 相 互 流通 。 
其 实 如 果 所 有 人 都 用 以 太 网 联网 ， 那 么 就 可 以 完全 抛弃 IP 这 一 层 寻 址 了 ， 但 是 实际 是 
不 可 能 的 ， 以 太 网 现在 还 没有 一 统 天 下 ， 而 且 就 算 一 统 天 下 了 ， 人 们 也 似乎 不 愿意 抛弃 IP, 
就 像 在 同一 个 局 域 网 内 ， 还 是 用 IP 来 直接 通信 ， 而 不 是 直接 用 MAC. TCP/IP 实在 是 被 使 
用 的 已 经 太 普 遍 了 ， 以 至 于 就 算 牺 牲 一 点 性 能 ， 局 域 网 内 通信 也 普遍 使 用 IP。 而 实际 上 ， 
以 太 局 域 网 内 部 通信 的 话 ，NetBEUI 协议 的 性 能 比 TCP/IP 协议 要 高 许多 。 
其 实 整 个 Internet， 不 仅仅 都 是 以 太 网 ， 以 太 网 适合 局 域 网 联网 通信 ， 但 是 不 适合 广 域 
网 情况 ， 广 域 网 的 联网 协议 ， 比 如 PPP，HDLC，Frame Relay，x25，ATM 等 ， 也 像 以 太 网 
- 样 各 有 各 的 寻 址 体系 。 在 一 个 Internet 上 有 这 么 多 种 不 同 地 址 的 网 络 ， 它 们 之 间 若 要 相 
互 融合 、 寻 址 ， 就 必须 在 各 种 地 址 之 间 ， 相 互 翻 译 、 转 换 、 了 映射， 数据 包 每 经 过 一 种 网 络 ， 
就 转换 一 次 ， 这 样 非常 麻烦 。IP 地 址 的 出 现 使 得 所 有 联网 的 节点 ， 不 管用 的 是 以 太 网 ， 还 
是 Frame Relay， 统 统 都 分 配 一 个 IP 地 址 给 每 个 节点 ， 对 外 最 终 以 IP 地 址 作为 寻 址 地 址 ， 
而 将 IP 地 址 再 映射 到 自己 所 在 网 络 的 所 使 用 的 地 址 上 ， 比 如 IP 映射 到 以 太 网 的 MAC， 或 
者 IP 映射 到 Frame Relay 的 DLCI， 映 射 到 ATM 的 地 址 等 。 
用 来 进行 地 址 映射 的 程序 , 称 为 Address Resolution Protocol, 即 ARP。 很 多 人 听 到 ARP, 
就 认为 是 以 太 网 ， 其 实 这 也 是 错误 的 ，ARP 不 仅仅 代表 以 太 网 中 的 TP 地 址 和 MAC 地 址 的 
映射 ， 它 代表 任何 种 类 地 址 之 间 的 映射 对 应 关系 ， 从 这 一 点 来 说 ，DNS 协议 也 应 该 归 入 广 
义 的 ARP 协议 中 。 
IP 统治 了 OS 的 第 三 层 ， 将 原来 占据 第 三 层 的 凌乱 地 址 种 类 统一 了 。 了 映射 到 (承载 于 ] 
以 太 网 的 IP， 称 为 IPoE(IPoE 也 就 是 “基于 以 太 网 的 TCP/IP”); 映射 到 帧 中 继 的 IP， 称 为 
IpoFR; 映射 到 ATM 的 IP, 称 为 IPoA 等 。 从 此 一 种 新 的 概念 诞生 了 : PoP, BI Protocol over 
Protocol。 
2. IP 缺乏 传输 保障 功能 
IP 统一 了 天 下 还 不 够 , 因为 IP 最 大 的 作用 就 是 寻 址 和 路 由 以 及 适 配 链 路 层 MTU, 它 并 
不 提供 其 他 功能 ， 而 作为 一 个 健全 的 网 络 传输 协议 ， 必 须 具 有 传输 保障 功能 。 而 以 太 网 是 
一 个 面向 无 连接 的 网 络 ， 它 不 保障 数据 一 定 会 传送 的 对 方 ， 是 一 个 不 负责 任 的 网 络 ， 不 管 
的 端口 有 没有 收 到 ， 源 端口 只管 向 外 发 送 。 而 Frame Relay 协议 ， 其 前 身 x25 协议 ， 是 
个 有 着 很 好 传输 保障 功能 的 协议 ， 在 TCP/IP 没有 出 现 之 前 ，x25 的 传输 保障 机 制 做 得 非 
到 位 ， 因 为 x25 的 设计 初衷 ， 就 是 为 了 运行 到 极其 不 稳定 的 链 路 上 。 而 随 着 链 路 质量 的 
析 提 高 ，x25 的 做 法 显得 越 来 越 因 嘻 废 食 了 ， 所 以 其 改良 版 本 Frame Relay， 就 逐渐 替代 
x25, FR 抛弃 了 x25 中 很 多 无 谓 的 传输 保障 机 制 ， 而 仅仅 留 下 一 些 流 控 机 制 。 相 对 于 以 
网 的 不 负责 任 ，FR 起 码 在 链 路 层面 ， 实 现 了 比较 好 的 流 控 措 施 。 
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但 是 , 不管 是 以 太 网 ,还 是 FR, 都 没有 实现 端 到 端的 传输 保障 。 端 到 端 ， 是 相对 于 “过 
路 ”来 说 的 。 过 路 是 指 在 两 个 终端 之 间 通 信和 路径 上 的 网 络 设备 之 间 的 路 径 。 链 路 层 的 传输 
保障 就 是 一 种 过 路 保障 ， 因 为 链 路 层 只 保证 相连 的 两 个 设备 之 间 传 送 数据 正常 无 误 ， 但 是 
不 能 保障 通信 最终 端 接收 和 发 送 的 数据 正常 无 误 。 因 为 在 一 个 典型 的 包 交 换 网 络 中 ， 数 据 
包 一 般 都 是 一 跳 一 跳 的 被 传送 的 ， 每 一 跳 两 端的 设备 用 链 路 层 协 议 进行 传输 保障 。 

但 是 最 终 目的 是 要 让 通信 的 最 终 两 端 无 误 的 收 到 数据 ， 才 能 算 作 真 正 的 传输 保障 ， 即 
端 到 端的 保障 。 而 FR 协议 所 做 的 ， 只 是 在 过 路 的 时 候 保障 链 路 正确 传输 。 如 果 链 路 正确 传 
输 给 了 终端 ， 而 终端 到 最 终 上 层 的 某 个 环节 出 错 了 ， 那 么 数据 同样 也 是 错误 的 ， 所 以 ， 要 
实现 端 到 端的 传输 保障 ， 一 定 要 在 最 终 传输 终端 上 运行 一 个 侦 错 和 纠 错 逻 辑 ， 用 来 发 现 链 
路 层 所 发 现 不 了 的 错误 。 图 13.1 为 端 到 端 保障 与 过 路 保障 的 示意 图 。 
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运行 中 一 及 其 下 层 链 路 层 协议 


图 13.1_ 过 路 保障 与 端 到 端的 保障 


3. TCP 保驾 护航 

为 了 实现 这 个 目的 ，TCP 出 现 了 。TCP 作为 一 个 程序 运行 在 通信 的 两 个 终点 ， 不 管 两 
点 之 间 用 什么 样 的 链 路 连接 ， 经 过 了 多 少 网 络 设 备 ，TCP 程序 始终 运行 在 通信 终端 上 ， 监 
控 终 端 最 终 发 送 和 接收 到 的 数据 包 的 顺序 、 缓 在 区 、 校 验 等 信息 ， 检 查 是 否 出 现 丢 包 、 阻 
塞 等 事件 ， 一 旦 发 现 错误 ， 立 刻 纠 正 重 发 数据 包 。 

TCP 不 是 运行 在 通信 路 径 上 的 ， 而 是 运行 在 通信 终点 的 两 端 设 备 上 。 即 使 过 路 链 路 保 
障 机 制 再 健全 ，TCP 也 是 有 必要 的 ， 因 为 数据 包 只 有 被 终端 正确 接收 到 ， 才 能 算 真正 的 传 
输 保 障 。 

所 以 , 在 IP 之 上 ， 又 凌驾 了 一 层 TCP 逻辑 ， 用 来 保障 端 到 端的 无 误 传输 。 而 FR 等 链 
路 层 协议 的 保障 机 制 ， 只 能 保障 本 段 链 路 传输 无 误 ， 不 能 保障 端 到 端的 正确 收发 ， 所 以 只 
能 沦 为 数据 链 路 层 协议 的 角色 了 ， 用 来 承载 IP 和 TCP。 

我 们 可 以 体会 到 ， 协 议 之 间 也 是 在 互相 利用 、 互 相 排挤 、 知 并， 融合 ， 以 适应 不 同 的 
应 用 环境 ， 因 为 不 可 能 为 每 一 种 应 用 环境 都 设计 一 种 协议 ， 协 议 之 间 互 相 利用 、 融 合 ， 才 
是 最 好 的 解决 办 法 。 

4. 最 佳 拍档 一 一 TCP/IP 和 以 太 网 

现在 可 以 回答 上 面 没有 找到 答案 的 那个 问题 了 , 为 什么 以 太 网 偏 要 和 TCP/IP 组 合成 一 
对 呢 ? 因为 以 太 网 使 用 得 太 广泛 了 ， 而 os 的 第 三 层 、 第 四 层 ， 也 几乎 被 IP、TCP 给 统一 
了 ， 所 以 以 太 网 +TCP/IP， 当 然 就 成 了 一 对 好 搭档 了 。 
虽然 一 个 协议 可 能 实现 0SI 的 所 有 7 个 层次 ， 但 是 如 果 它 要 和 其 他 协议 合作 ， 那 么 就 
要 有 个 分 工 ， 而 不 能 越权 ， 比 如 IPoA，ATM 只 要 传输 IP 包 到 目的 就 可 以 ， 而 不 管 数据 是 
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和 否 出 错 、 乱 序 等 ， 虽 然 ATM 可 能 有 这 个 功能 。 以 太 网 虽然 自己 可 以 寻 址 ， 但 是 它 还 是 配合 
IP, 进行 IP 到 MAC 的 映射 , 统一 使 用 IP 寻 址 , 它 默 默 无 闻 , 所 有 光辉 都 被 TCP/IP 所 披挂 。 


13.3 网络 通信 协议 的 四 级 结构 


网 络 通信 协议 ， 一 般 可 以 分 成 Payload 层 、 信 息 表示 层 、 交 互 逻辑 层 和 寻 址 层 。 其 中 最 
重要 的 是 交互 逻辑 层 ， 它 是 一 个 协议 的 灵魂 。 

1. Payload 层 

Payload 是 协议 所 承载 的 与 本 协议 逻辑 无 关 的 最 终 数据 , 是 通信 终端 通过 本 协议 最 终 需 
要 传送 给 对 方 的 数据 。Payload 也 就 是 协议 所 运输 的 货物 。Payload 层 中 的 数据 ， 既 可 以 是 
最 终 应 用 产生 的 数据 ， 也 可 以 是 另 一 种 协议 的 信息 表示 层 +Payload 数据 。 如 果 Payload 封 
装 的 是 最 终 应 用 产生 的 数据 ， 则 表示 这 个 协议 是 直接 被 上 层 应 用 程序 来 调用 ， 从 而 完成 程 
序 之 间 的 远程 网 络 通信 的 。 

如 果 Payload 封装 的 是 另 一 种 协议 的 信息 表示 层 +Payload 数据 ， 那 么 就 证 明 这 个 协议 
此 时 正在 承载 那个 协议 。 比 如 协议 A 封装 了 协议 B 的 信息 表示 层 +Payload， 则 就 可 以 说 协 
议 A 封装 了 协议 B, 或 者 协议 A 承载 了 协议 B， 或 者 说 协议 Bis over 协议 A(BoA) 。 我 们 后 
面 会 描述 一 种 协议 被 Map( 映 射 ] 到 另 一 种 协议 ， 而 不 是 被 封装 ， 这 种 融合 方式 称 为 AmB， 
是 彻底 的 协议 转换 ， 而 不 是 仅仅 做 隧道 封装 。 

2. 信息 表示 层 

信息 表示 层 就 是 附加 在 Payload 数据 之 外 的 一 段 数 据 , 也 称 作 协议 开销 , 因为 这 段 数 据 
和 最 终 应 用 程序 无 关 ， 是 运行 在 通信 双方 的 通信 协议 用 来 交互 各 自 的 状态 ， 从 而 使 双方 作 
出 正确 动作 的 一 段 重 要 数据 。 这 段 数 据 可 以 想象 成 提货 单 或 者 信封 。 信 封 封装 了 信纸 ， 信 
封 上 的 地 址 、 姓 名 等 信息 ， 就 是 信息 表示 层 ， 它 可 以 让 对 方 检测 到 当前 通信 所 处 的 状态 。 

3. 交互 逻辑 层 

这 一 层 其 实 就 是 运行 在 通信 双方 协议 系统 上 的 动作 程序 代码 逻辑 ， 它 根据 对 方 传送 过 
来 的 信息 表示 层 数据 来 作出 相应 的 动作 逻辑 ， 再 生成 自己 的 信息 表示 层 发 送 给 对 方 ， 然 后 
对 方 再 做 相同 的 处 理 判 断 动 作 ， 就 这 样 完成 通信 双方 之 间 的 正确 动作 。 交 互 逻辑 层 其 实 就 
是 协议 的 设计 思想 。 交 互 逻 辑 层 对 于 每 种 协议 都 不 相同 ， 但 是 很 多 都 类 似 ， 可 以 说 网 络 通 
信 协 议 基本 思想 是 类 似 的 ， 因 为 它们 所 实现 的 目的 都 是 一 样 的 ， 就 是 将 数据 通过 网 络 传输 
到 目的 地 。 

正 因为 如 此 ， 各 种 协议 的 交互 逻辑 层 才 可 以 相互 融会 贯通 ， 将 一 种 协议 的 逻辑 ， 映 射 
翻译 到 另 一 种 协议 的 逻辑 ， 从 而 将 各 种 协议 的 优点 结合 起 来 ， 完 成 目标 。 协 议 逻 辑 层 一 般 
都 是 运行 在 通信 双方 两 端的 ， 但 是 像 IP 路 由 协议 等 ， 通 信 双 方 经 过 的 路 径 上 的 所 有 设备 ， 
也 都 需要 运行 ， 因 为 P 包 是 一 跳 一 跳 被 接收 并 且 转 发 的 。 
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4. 寻 址 层 
它 是 帮助 协议 来 找到 需要 通信 的 目标 的 一 套 编 址 和 寻 址 机 制 。 比 如 IP 地 址 、MAC 地 址 、 
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DLCI 地 址 、 电 话 号 码 等 。 如 果 是 点 对 点 传输 协议 ， 则 可 以 忽略 此 层 ， 因 为 不 需要 寻 址 。 而 
且 不 同 协议 之 间 的 寻 址 层 ， 可 以 互相 映射 翻译 。 

以 上 的 这 四 层 ， 是 任何 一 个 网 络 通信 协议 所 必须 具备 的 ， 不 管 多 么 简单 或 者 多 么 复杂 
的 协议 。 

5. 通信 协议 的 相似 性 

相似 性 是 通信 协议 之 间 相 互 融合 的 一 个 条 件 。 而 协议 之 间 相 互 融合 的 另 一 个 促成 因素 ， 
就 是 协议 使 用 广泛 程度 不 同 ， 有 时 如 果 要 完成 一 个 目标 ， 不 得 不 借用 某 种 协议 。 

就 像 TCP/IP HX, TCP/IP 协议 占领 了 全 球 Internet 的 领地 。 如 果 有 一 种 协议 想 跨 越 
也 域 或 国家 来 进行 通信 ， 但 是 自己 又 无 能 为 力 ， 因 为 它 首先 没有 专门 为 它 准备 的 物理 线路 ， 
其 次 它 的 设计 , 也 就 不 适合 大 范围 、 长 距离 的 广域网 环境 , 那么 它 只 能 来 租用 TCP/IP 协议 ， 
将 自己 封装 到 IP 包 中 传送 。 能 适合 Internet 规模 的 网 络 通信 协议 ， 唯 TCP/IP Sig! 而 其 
他 协议 想 要 完成 Internet 范围 的 通信 ， 就 不 得 不 借助 TCP/IP， 搭 TCP/IP 的 车 ， 让 TCP/IP 
来 承载 它们 。 它 们 是 怎么 搭 上 TCP/IP 的 快车 呢 ? 
我 们 不 妨 类 比 一 下 。 在 整理 本 章 的 时 候 ， 恰 逢 大 连 刚刚 开通 了 一 盘 新 的 火车 箱 滚 装 船 。 
我 想 用 这 个 例子 来 比喻 协议 融合 ， 再 适合 不 过 了 。 从 山东 烟台 到 大 连 ， 最 近 的 路 径 就 是 走 
渤海 湾 水 路 ， 如 果 搭 乘 陆路 火车 ， 则 需要 绕 一 大 圈 ， 所 以 很 多 货运 汽车 ， 甚 至 火车 ， 都 选 
择 乘 船 到 大 连 ， 下 船 后 ， 车 厢 用 火车 头 拉 走 ， 这 样 ， 在 增加 很 少 成 本 的 条 件 下 ， 节 约 了 大 
量 时 间 。 协 议 融合 同样 遵循 这 个 原则 ， 只 要 能 使 总 体 拥有 成 本 降低 ， 性 价 比 提高 ， 任 何 协 
议 都 可 以 融合 。 


13.4 协议 融合 的 三 种 方式 


协议 和 协议 之 间 的 相互 作用 ， 有 三 种 基本 的 思想 。 
e 第 一 种 是 调用 (Use)， 也 就 是 一 种 协议 完全 利用 男 一 种 协议 。 
e 第 二 种 是 隧道 封装 (Tunnel), 一 种 协议 将 另 一 种 协议 的 完整 数据 包 全 打包 遂 道 封装 
到 新 协议 数据 包 中 。 
e 第 三 种 是 映射 (Map]， 也 就 是 一 种 协议 对 另 一 种 协议 进行 映射 翻译 ， 只 将 原来 协议 
f] Payload 层 数据 提取 出 来 ， 重 新 打包 到 新 协议 数据 包 中 。 
1. 调用 关系 
所 谓 调用 ， 也 就 是 一 种 协议 自身 没有 某 些 功能 ， 需 要 使 用 另 一 种 协议 提供 的 功能 。 比 
如 TCP HH IP, KA TCP 没有 寻 址 功能 ， 所 以 它 利 用 IP 来 寻 址 。 而 IP 又 可 以 调用 以 太 网 ， 
因为 IP 只 是 一 个 寻 址 功能 , 它 没有 链 路 传输 的 功能 ， 所 以 它 利用 以 太 网 提供 的 链 路 传输 ( 交 
换 机 、Hub ^5). IP 调用 PPP 来 传输 等 ， 也 就 是 上 层 协 议 为 了 达到 通信 目的 ， 使 用 另 一 种 协 
议 为 其 服务 。 这 种 关系 严格 来 说 ， 不 算是 融合 。 
2. 隧道 关系 


隧道 封装 , 顾名思义 ,就 是 将 一 种 协议 的 完整 数据 包 ( 包 括 Payload 和 协议 开销 ) 作 为 男 
一 种 协议 的 Payload 来 进行 封装 ， 打 包 传输 到 目的 地 ， 然 后 解 开 外 层 协议 的 封装 信息 ， 露 出 
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内 
°F 行 协议 转换 的 设备 根本 就 不 需要 去 理解 内 层 协 议 到 底 是 什么 东西 ， 
插 数 据 包 统统 打包 发 出 去 。Tunnel 的 出 现 , 往往 是 由 于 被 Tunnel 的 
在 某 一 方面 具有 相似 甚至 相同 的 功能 ， 但 是 在 某 些 特定 的 条 件 下 ， 被 T 
办 议 表 现 得 优秀 ， 不 适合 某 种 特定 的 环境 ， 而 这 种 环境 ， 恰 恰 被 外 
船 来 装 火 车 箱 一 样 。Tunnel 的 另 一 个 目的 是 伪装 内 层 协议 。 


3. 映射 关系 


单 的 封装 。Map 相对 于 Tunnel， 是 内 外 层 协 议 的 一 种 最 彻底 的 融合 ， 


日 


的 数据 只 有 两 端 通信 的 应 用 程序 才能 理解 。 
13.5 Tunnel 和 Map 融合 方式 各 论 


例如 火车 、 汽 车 是 两 种 运输 工具 ， 它 们 看 似 有 太 多 的 不 同 ， 但 是 它 1 


部 被 封装 承载 的 协议 完整 数据 包 ， 再 提交 给 内 层 协 议 处 理 逻 辑 模块 进行 处 理 。 也 台 
到 底 想 要 干什么 ， 
办 议 虽 然 和 外 


Map 是 比 Tunnel 更 复杂 、 更 彻底 的 协议 融合 方式 。 所谓 Map， 也 就 是 
办 议 的 部 分 或 者 全 部 逻辑 ， 映 射 翻译 到 外 层 协 议 对 应 的 功能 相似 的 逻辑 上 ， 


点 , 融合 得 天 衣 无 缝 。 内 层 协 议 的 Payload JEE Map 动作 中 是 不 会 改动 的 ， 


只 


层 协议 
unnel 协议 不 比 外 


层 协议 所 适合 。 这 就 


决 射 ， 就 是 将 内 
而 不 是 仅仅 
它 将 两 种 协议 的 
因为 Payload 


门 的 目的 都 是 相同 


的 ， 都 是 为 了 将 货物 运送 的 目的 地 。 而 火车 需要 跑 在 铁道 上 ， 但 汽车 需要 跑 在 公路 上 (物理 
层 不 同 ， 链 路 层 不 同 )， 火 车 因为 铁轨 很 平滑 ， 需 要 用 钢铁 轮子 ， 而 汽车 因为 公路 很 颠 徐 ， 


需要 用 充气 轮胎 ， 火 车 不 需要 红绿灯 来 制约 ， 而 汽车 跑 在 公路 上 ， 会 有 和 
它 ， 火 车 由 于 跑 在 专用 的 铁 雏 上， 所 以 它 能 

上 ， 它 能 ， 但 是 不 敢 达到 太 高 的 时 速 ， 火 
可 去 …… 


车 只 能 


按照 它 的 轨道 来 运行 ， 


达到 很 高 的 时 速 ， 而 汽车 由 于 跑 在 共享 的 公 


民 多 红绿灯 来 制约 


而 汽车 几乎 随处 


aje As ^t 
Wi 


以 上 列举 出 了 火车 和 汽车 的 种 种 特点 ， 相 应 的 飞机 、 轮 船 、 


者 


可 以 拿 来 对 比 ， 


这 些 特点 就 像 各 种 通信 协议 自身 的 特点 一 样 。 同 样 都 是 运输 货物 ， 但 是 它们 都 适应 了 不 同 


的 需要 。 只 不 过 
据 ， 是 信息 。 不 同 的 通信 协议 同样 也 是 为 了 满足 
ÆT Internet 范围 的 网 络 通 信 ; FC 协议 满足 了 后 端 存储 的 专 
各 自 占有 自己 的 领地 ， 谁 也 取代 不 了 谁 。 就 像 铁路 不 可 能 为 了 和 民航 
上 修 ， 航 空 公司 也 不 可 能 为 了 和 陆运 公司 竞争 ， 而 让 飞机 跑 在 公路 上 。 

TCP/IP 适合 整个 Internet 范围 的 通信 ， 而 SCS 协议 不 适合 ， 所 以 如 
跨越 大 范围 通信 ， 就 要 将 其 承载 到 TCP/IP E, 也 就 形成 了 ISCSI 协议 , 然 
不 关心 什么 是 SCSI， 更 不 知道 SCSI 是 怎样 一 种 作 
因为 以 太 网 是 个 面向 
机 制 (PPP 协议 中 用 来 协商 上 层 协议 参数 的 机 制 )， 
来 对 接 入 终端 进行 认证 和 管理 , 但 是 PPP 使 用 程度 远 远 不 如 以 太 
于 是 形成 了 PPPoE 协议 。 


MET 


Hi 


用 


Ç. 
A. 


H 


而 PPP 却 有 这 些 机 制 ， 


网 广泛 ， 


E 
sud 


td 


络 通信 协议 运输 的 不 是 货物 ， 而 是 一 串 0 和 1， 是 高 低 变 化 的 电 平 ， 是 数 
不 同 的 情况 、 不 同 的 需求 。TCP/IP 协议 满 
用 高 速 公路 这 个 环境 ， 


-者 都 
而 把 轨道 往 天 


fr 


果 SCSI 协议 需要 
而 TCP/IP 根本 就 


用 逻辑 ， 它 只 是 负责 封装 并 传输 。 同 样 ， 
无 连接 的 网 络 , 没有 握手 过 程 , 也 没有 必要 有 终端 认证 


机 制 、 没 有 NCP 
E 常 适合 ISP 用 
怎么 办 ? 融合 吧 ! 
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5.1 Tunnel 方式 
ISCSI 和 PPPoE 这 两 个 协议 ， 是 典型 的 Tunnel 模式 。 前 面 已 经 给 Tunnel 下 过 定义 了 。 


先 一 种 PoP 的 模式 被 定义 为 Tunnel 的 前 提 ， 就 是 这 两 种 协议 对 某 一 特定 的 功能 
己 的 实现 。 如 果 一 种 协议 在 某 方面 的 功能 ， 另 一 种 协议 没有 实现 ， 那 么 另 一 种 协议 就 是 “ 


那 种 协议 ， 而 不 是 被 Tunnel 到 那 种 协议 。 比 如 ，IPoE 就 是 典型 的 调用 ， 而 不 是 Tunnel 


或 者 Map， 因 为 IP 没有 链 路 层 功 能 


注 |IP 5 Ethernet 之 间 的 编 址 逻辑 是 映射 关系 而 不 是 使 用 关系 ， 即 IP 地 址 与 MAC 
地 址 的 相互 映射 。 


用 ISCSI 来 分 析 ，TCP/IP 可 以 实现 寻 址 和 传输 保障 ，SCSI 协议 也 可 以 实现 寻 址 和 传输 


保障 ， 所 以 它们 具备 了 这 个 前 提 ; 同样 PPPoE 也 是 一 种 Tunnel 方式 的 融合 协议 ， 因 为 PPP 
和 Ethernet 都 是 链 路 层 协议 。 


1. VPN 的 引入 
Tunnel 的 另 一 个 作用 ， 就 是 伪装 。 有 时 候 虽 然 两 种 协议 实现 的 功能 、 适 用 环境 都 相同 ， 


但 还 是 将 其 中 一 种 Tunnel 到 另 一 种 之 上 , 这 是 为 什么 呢 ? 有 些 情况 确实 需要 这 种 实现 方式 。 
比如 IP 协议 中 的 GRE， 通 用 路 由 封装 ， 就 是 这 样 一 种 协议 。 它 将 IP 协议 承载 到 IP 协议 本 
身 之 上 ， 自 己 承载 自己 ， 再 封装 一 层 ， 这 样 就 可 以 使 得 一 些 不 能 在 公 网 路 由 的 TP 包 ， 封 装 
到 可 以 在 公 网 路 由 的 1P 包 之 中 ， 到 达 目 的 后 再 解 开封 装 ， 露 出 原来 的 1P 包 ， 再 次 路 由 。 这 


就 是 


个 内 部 网 络 ， 通 过 Internet 连接 起 来 ， 两 端 就 像 在 一 个 内 网 一 样 ， 经 过 Internet 的 时 候 ， 


使 月 


反 修 


伪装。 
利用 这 种 思想 ， 人 们 设计 出 了 VPN. BI Virtual Private Network， 用 来 将 相隔 千里 的 两 


日 公 网 地 址 封装 内 网 的 IP 包 。 这 是 最 简单 的 VPN。 在 这 基础 上 , 又 可 以 对 IP 包 进 行 加 密 、 
改 等 , 形成 IPSEC 体系 , 将 其 和 原始 的 VPN 结合 , 形成 了 带 加 密 和 反 修 改 的 IPSEC VPN, 


HI 


E 使 得 这 种 PoP， 穿 越 外 层 协 议 的 时 候 ， 能 够 保障 数据 安全 。 
2. 例 解 Tunnel 


下 面 再 举 个 例子 来 说 明 ， 到 底 什么 是 Tunnel. 
邮政 系统 ， 目 前 已 经 是 举步维艰 。21 世纪 之 前 ， 网 络 还 没有 很 普及 ， 除 了 电话 、 电 报 ， 


写 信 似乎 是 大 家 长 距离 通信 的 唯一 选择 。 寄 信人 将 自己 的 信件 (数据 ，Payload) 装 入 信封 ( 协 


DU RA 
交 给 邮局 (网 络 交换 路 由 设备 ]， 由 邮局 进行 层 层 路 由 转发 ， 最 终 到 达 目 的 地 。 


ks 层 数据 段 )， 填 好 收 信人 人 地址、 邮编 、 名 称 (通信 协议 的 信息 表示 层 、 寻 址 层 ) 等 ， 


IP 网 络 和 邮政 系统 极其 相似 。 而 为 什么 邮政 系统 目前 已 经 陷入 了 困境 呢 ? 原因 就 是 


进入 21 世纪 之 后 , 物流 业 快 速 兴 起 , 它们 借助 陆路 、 水 路 、 航 路 、 pd “ 链 路 层 ”， 


加 J 


上 自己 的 一 套 流程 体系 (协议 交互 逻辑 )， 充 分 利用 这 些 资源 达到 物流 目的 。 以 前 只 有 邮政 


一 种 方式 ， 而 现在 物流 公司 多 如 牛 毛 ， (pesci uus 但 是 基本 思想 
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大 同 小 异 ， 都 是 要 将 用 户 的 货物 运送 到 目的 地 。 


世纪 ， 虽 然 网 络 已 经 很 发 达 ， 但 是 网 络 只 能 走 信息 流 ， 走 不 了 实物 流 。 所 以 物流 公 
IE dog. 


我 们 来 看 看 213826, HP Rb Led He AEG XU. A 


信 ， 如 果 还 是 用 古老 的 协议 ， 比 如 信封 + 80 分 邮票 的 形式 , 还 是 可 以 的 ， 大街 


3 上 现在 还 有 邮 简 。 但 是 很 多 快递 公司 ， 也 提供 信件 包 衰 服务， 只 不 过 他 们 用 的 


信封 ， 比 普通 信封 大 ， 结 实 ， 而 且 他 们 信封 上 的 标签 ， 所 包含 的 信息 更 加 具体 
和 丰富 ， 比 如 增加 了 收 件 人 电话 、 发 件 日 期 、 受 理 人 签字 、 委 托 人 签字 等 。 邮 
政信 封 具有 的 ， 快 递 信封 都 具有 。 


这 样 就 可 以 看 出 这 两 种 协议 的 不 同 之 处 了 。 用 户 可 以 把 信件 封装 到 邮政 普通 信封 直接 
发 送 ， 也 可 以 封装 到 快递 公司 信封 中 发 送 ， 也 就 是 选用 其 中 一 种 协议 。 
那么 如 果 用 户 先 把 信件 (最 终 数据 ) 封 装 到 普通 信封 中 ， 填 好 信封 头 信息 (协议 信息 表示 


JERIH 


上 层 )， 然 后 将 封装 好 的 普通 信封 ， 再 封装 到 快递 公司 的 信封 中 ， 并 再 次 填 一 份 快递 


公司 的 信封 头 信息 。 快 递 公司 按照 这 些 信 息 ， 将 信件 送 到 目的 地 ， 目 的 收 到 之 后 ， 解 开外 


层 信封 ， 


然后 解读 内 层 信 封 的 信息 头 ， 再 次 转发 ， 或 者 直接 打开 。 刚 才 描 述 的 这 种 情况 ， 


就 是 一 个 典型 的 协议 Tunnel 方式 的 相互 作用 ， 把 邮政 协议 ，Tunnel 到 快递 公司 的 协议 ， 这 
种 Tunnel 的 目的 ， 就 是 为 了 获得 快速 、 优 质 的 服务 ， 因 为 普通 邮政 协议 提供 不 了 快速 高 效 


的 服务 。 


| 我 们 再 来 看 这 种 情况 ， 比 如 快递 公司 A， 在 北京 没有 自己 的 送 货机 构 ， 但 是 青 


岛 有 人 需要 向 北京 送 货 ， 怎 么 办 ? 


此 时 当然 要 考虑 借助 在 北京 有 送 货 机 构 的 快递 公司 B, 让 他 们 代 送 , 将 信件 封装 到 快递 


公司 A 


地 之 后 ， 


的 信封 ， 然 后 再 将 A 的 信封 装 入 快递 公司 B 的 信封 ， 让 快递 公司 B 做 转发 ， 到 目的 
B 的 送 货 员 和 剥 开外 层 信封 ， 最 终 用户 会 收 到 一 个 快递 公司 A 的 信封 ， 客 户 就 认为 


是 快递 公司 A 全 程 护送 过 来 的 ， 其 实 不 是 。 这 样 就 很 好 地 伪装 了 信件 。 这 是 Tunnel 的 另 一 


个 目的 。 


13.5.2 


Map 方式 


说 完了 Tunnel， 我 们 再 来 说 说 Map. Map 就 是 将 一 种 协议 的 逻辑 ， 翻 译 映射 成 男 一 种 
协议 的 逻辑 ，Payload 数据 完全 不 变 ， 达 到 两 种 协议 部 分 或 者 完全 融合 。 
还 是 快递 公司 的 例子 。 两 个 快递 公司 (两 种 协议 ), 快递 公司 A 在 青岛 没有 自己 的 送 货 机 


的 业务 ， 


构 ， 但 是 B 有。 所 以 A 和 B 达成 协议 ，A 将 青岛 地 区 的 送 货 外 包 给 B， 凡 是 A 公司 在 青岛 


起 初 的 做 法 是 : 先 将 客户 信件 装 入 A 信封 ， 然 后 再 封装 一 层 B 信封 ， 带 着 A 信封 来 转发 ， 
也 就 是 Tunnel。 后 来 ，B 公司 嫌 这 种 方法 浪费 了 成 本 ， 因 为 额外 携带 了 一 个 A 信封 ， 这 增 


都 由 B 来 运送 , 但 是 表面 上 必须 保持 A 的 原样 ， 这 种 方式 目前 实际 已 经 广泛 使 
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加 了 信件 的 重量 和 信封 成 本 。 所 以 B 公司 琢磨 出 一 套 方法 。 
11 先 让 B 公司 的 取 件 人 了 解 寄 件 人 所 要 提供 的 信息 , 此 时 取 件 人 担当 A 公司 的 角色 ， 
用 户 认 为 取 件 人 是 A 公司 的 , 用 户 按照 A 公司 的 协议 , 将 信封 头 信 息 告 诉 取 件 人 ，; 
2】 然后 取 件 人 此 时 并 没有 将 信件 装 入 A 公司 信封 ， 而 是 直接 装 入 了 B 公司 信封 ， 但 
是 在 填写 B 公司 信封 头 的 时 候 ， 取 件 人 将 用 户 提供 的 针对 A 公司 特有 的 信封 头 信 
息 ， 转 换 翻 译 成 B 公司 特有 的 信封 头 信息 ; 
3] 经 过 B 公司 转发 后 ， 到 达 目 的 地 之 后 ， 送 货 员 再 次 将 B 公司 的 信封 头 信息 ， 转 换 
翻译 成 A 公 司 所 特有 的 信封 头 信息 。 
这 样 ， 两 端的 用 户 ， 同 样 也 丝毫 感觉 不 出 中 间 环 节 其 实 是 B 公司 完成 的 。 但 是 这 种 方 
式 相对 于 Tunnel 方式 的 确 节约 了 B 公司 的 成 本 ,使 得 开销 变 小 了 ， 提 高 了 转发 效率 。 这 种 
方式 的 协议 之 间 的 相互 作用 ， 就 是 Map. 
1. IP 和 以 太 网 之 间 的 寻 址 关系 Map 
最 简单 的 Map 就 是 IP 和 以 太 网 之 间 的 寻 址 关系 Map. IP 地 址 必须 映射 到 MAC 地 址 ， 
才能 享受 以 太 网 的 服务 。 正 如 IP 和 以 太 网 之 间 的 Use+Map 关系 一 样 ， 实际 上 ， 各 种 协议 之 
间 的 相互 作用 ， 不 可 能 只 是 其 中 一 种 作用 方式 ， 寻 址 体系 之 间 一 定 需要 Map( 同 种 协议 自身 
Tunnel 的 情况 除外 )， 交 互 逻 辑 层 可 以 Tunnel， 也 可 以 Map, Payload 一 定 需要 Tunnel. 
所 以 针对 协议 不 同 的 层次 ， 都 有 相对 应 的 相互 作用 方式 。 
2. 协议 交互 逻辑 的 Map 
协议 交互 逻辑 的 Map， 比 寻 址 层 的 Map 要 复杂 得 多 。 寻 址 层 的 Map 只 要 维护 一 张 映射 
表 就 可 以 ， 交 互 逻辑 的 Map 则 需要 维护 一 个 代码 转换 逻辑 模块 。 
两 种 协议 的 状态 机 的 互相 融合 作用 是 很 复杂 的 。 比 如 TCP 的 流 控 机 制 和 FC 协议 的 流 控 
机 制 之 间 的 Map, TCP 是 靠 窗口 机 制 实现 端 到 端的 流 控 ，FC 靠 Buffer to Buffer( 过 路 流 控 ) 
和 End to End( 端 到 端 流 控 ] 两 种 机 制 实现 流 控 。 如 果 把 FC 协议 承载 到 TCP/JIP 协议 之 上 , 那 
么 就 会 出 现 Tunnel 模式 和 Map 模式 ， 当 然 Tunnel 中 也 可 能 需要 Map. Map 中 也 同样 需要 
一 定 的 Tunnel 成 分 。 
我 们 不 妨 称 作 : 以 Tunnel 为 主 的 模式 和 以 Map 为 主 的 模式 。 
如 果 是 Tunnel 为 主 的 模式 , 那么 TCP/IP 根本 不 管 FC 协议 的 交互 逻辑 是 怎么 样 的 , TCP 
仅仅 把 FC 当成 Payload 来 封装 并 传送 。 
而 Map 模式 中 ， 进 行 Map 操作 的 设备 或 者 软件 ， 就 需要 既 了 解 TCP/IP 协议 的 交互 逻 
辑 ， 又 了 解 FC 协议 的 交互 逻辑 ， 因 为 只 有 了 解 了 双方 的 逻辑 ， 才 有 可 能 进行 Map。 比 如 ， 
FC 协议 发 出 了 一 个 信号 , 说 本 方 缓存 将 满 , 请 降低 发 送 速 度 。Map 设备 收 到 这 个 信号 之 后 ， 
就 会 Map IÈ TCP/IP 可 识别 的 信号 ， 即 本 方 处 理 受 阻 ， 窗 口 减 小 至 某 某 数值 ， 这 就 是 FC 协 
WEJ TCP/IP 协议 关于 流 控 机 制 Map 的 一 个 方法 。 
如 果 在 Tunnel 模式 中 ，FC 协议 发 出 的 这 个 流 控 信号 ， 则 会 被 TCP/IP 给 Tunnel 传送 


到 对 方 ,然后 再 由 对 方 的 FC 协议 模块 来 根据 这 个 信号 来 判断 流 控 机 制 应 该 做 出 的 动作 ， 动 
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这 个 信号 是 直接 原封 不 动 的 被 传送 到 FC 协议 的 对 端 处 理 机 上 处 理 ， 而 不 是 像 
Map 模式 中 在 本 地 就 终结 了 FC 逻辑 。Tunnel 模式 中 ，TCP/IP 不 参与 任何 FC 
协议 内 部 的 逻辑 。 


除了 FC 流 探 罗 辑 的 映射 , 其 他 Flogin 登录 机 制 、 连 接 机 制 等 映射 , 也 都 有 自己 的 实现 。 
比如 ，FC 发 起 一 个 Plogin 过 程 ， 那 么 Map 设备 可 以 Map 到 TCP/IP 的 一 个 握手 过 程 等 。 


不 例子。 
(5 


13.6 FC 与 IP 协议 之 间 的 融合 


Tunnel 和 Map 这 两 种 模式 ,在 第 8 章 还 有 一 个 将 FC al 的 环 接 入 FC Fabric 中 的 


哗啦 ……， 早 晨 的 微风 把 IP 从 美梦 中 吹 醒 。 原 来 IP 做 了 一 场 美梦 。 根 据 梦 中 的 指示 ， 


IP 鬼使神差 的 将 FC 协议 映射 到 了 IP 上 。 并 做 了 两 种 模式 ， 


称 作 FCIP; 另 一 和 和 
在 FCIP 模式 


小 小 的 ACK 帧 ， 都 需要 封装 到 TCP/IP 协议 中 传输 。 两 端的 FC 协议 处 
TCP/IP 的 存在 ， 它 们 认为 对 方 就 是 一 个 纯粹 的 FC 设备 。 

!， 通 信 的 双方 各 增加 一 个 IFCP 网 关 ， 作 为 协议 转换 设备 使 用 。IFCP GW 
将 FC 协议 终止 在 本 地 ， 提 取 Payload 数据 ， 对 外 以 TCP/IP 设备 的 形式 出 现 并 传输 数据 ， 
到 达 对 方 之 后 ， 对 方 的 IFCP GW 再 从 IP 包 中 提取 出 Payload， 然 后 将 大 
4 现 。 通 信 双 方 中 间 的 TCP/IP 协议 , 将 大 部 分 或 者 全 部 FC 的 逻辑 


在 IFCP 模式 


其 内 部 以 FC 设备 的 形式 ! 


:是 以 Map 为 主 的 模式 ， 称 作 IFCP。 


都 映射 成 TCP/IP fi 
比如 每 当 一 个 


方 建立 一 条 TOP 连接 ， 用 多 条 TCP 连接 和 不 同 的 IP 地 址 来 区 分 不 同 芯 
需要 保存 一 个 TCP 端口 或 者 IP 地 址 对 FC 设备 24bit 的 Fabric 地 址 的 


Jig dit. 


FC 设备 需要 和 远 端 的 FC 设备 通信 ， 发 起 Plogin， 那 么 IFCP GW 就 向 对 


:封装 到 FC iii 


FC 设备 。 此 多 


央 射 表 。 如 果 两 端的 


-种 是 以 Tunnel 为 主 的 模式 ， 


1!， 通 信 的 双方 各 增加 一 个 FCIP 网 关 ， 任 何 FC 协议 的 逻辑 ， 哪 怕 是 一 个 
里 机 不 会 感知 到 中 必 


Vox 


， 还 


FC 设备 的 ID 有 冲突 ， 这 个 映射 表 还 需要 考虑 NAT， 将 地 址 翻译 成 其 他 ID 。 相 对 于 IFCP， 


FCIP D) oU fie Y 
么 也 只 能 冲突 着 了 


至 此 ,FC 协议 终于 局 


Un] FC 的 逻辑 ， 因 为 它 只 是 Tunnel， 如 果 两 端 Fabric 中 有 ID 冲突 


里 都 可 以 跑 上 FC 协议 了 。IP 大 获 成 功 ! IP 和 FC 从 此 握手 言 和 ! 


伟大 的 SCSI 协议 


的 ， 那 


以 享受 TCP/IP 带 来 的 扩展 性 了 ，FC 搭 上 了 TCP/IP 的 车 ， 远 隔 千 


可 以 说 整个 网 络 存储 系统 ， 都 起 源 于 一 个 协议 体系 ， 这 个 协议 体系 就 是 SCSI 协 议 。 网 
络 存 储 的 任何 内 容 ， 最 终 都 是 为 了 将 这 个 协议 体系 发 扬 光 大 。 人 们 将 这 个 协议 强行 划分 解 
然后 把 它 的 最 上 面 的 几 层 ， 与 另 一 个 协议 体系 一 一 Fabre Channel 协议 的 
形成 了 FCP 协议 ， 这 种 协议 目前 运行 在 各 个 厂家 的 高 端 磁盘 阵列 上 。 还 
以 太 网 甚至 也 看 好 了 SCSI 协议 ， 想 与 其 融合 成 所 谓 的 “ESCSI” 协议 ， 
以 太 网 失败 之 后 ， 它 的 好 兄弟 IP 接着 上 ， 最 终 成 功 地 与 SCSI 协议 进行 


体 成 了 多 个 层次 ， 
下 几 层 进行 融合 ， 
有 曾经 一 度 时 间 ， 
但 结果 没有 成 功 。 
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了 融合 ， 生 成 了 JISCSI 协 议 ， 目 前 也 被 广泛 应 用 于 一 些 低 端 盘 阵 。 

为 何不 是 IATA 或 者 FATA 呢 ? 原因 就 是 因为 SCSI 协议 体系 本 身 就 比 ATA 协议 体系 
高 效 并 且 功 能 强大 ,此 外 ，SCSI 的 硬盘 性 能 也 普遍 比 ATA 硬盘 转速 快 性 能 高 ， 用 于 服务 器 
系统 ， 所 以 SCSI 当然 是 首选 了 。 另外 , 一 个 巴掌 拍 不 响 ，SCSI 协议 本 身 就 想 把 自己 给 “ 嫁 ” 
出 去 ， 因 为 它 很 早 就 已 经 迫不及待 地 将 自己 分 成 了 很 多 层次 ， 来 吸引 其 他 协议 。 

协议 融合 的 结果 ， 就 形成 了 目前 形形色色 的 网 络 存储 世界 ， 各 种 融合 协议 ， 各 种 产品 ， 
各 种 解决 方案 ， 好 不 热 闪 ! 而 原本 的 SCSI 协议 ， 除 了 一 些 磁带 机 以 及 主机 本 机 硬盘 外 ， 已 
经 不 再 使 用 。SCSI 融合 入 了 各 种 协议 中 ， 它 无 处 不 在 ， 虽 然 它 的 躯体 已 经 是 七 零 八 落 ， 但 
是 它 的 精深 思想 ， 以 及 为 技术 而 献身 的 精神 ， 将 在 形形色色 的 技术 中 永 放 光 芒 ! ! 


13.7 无 处 不 在 的 协议 融合 


之 所 以 提出 “协议 融合 ”这 个 名 词 ， 而 不 是 “协议 映射 ”或 者 “协议 隧道 ”， 是 因为 
“融合 ”这 个 词 更 加 通俗 易 懂 ;另外 ， 也 更 加 具有 生物 学 色彩 。 计 算 机 就 是 人 类 所 创造 的 
另 一 种 形式 的 “生物 ”， 人 类 就 是 计算 机 的 上 帝 。 

1. 协议 融合 和 基因 融合 

分 子 生物 学 家 们 将 不 同 功能 的 基因 段 整 合 到 一 起 ， 然 后 用 核糖 体 蛋 白 机 器 读 取 其 代码 ， 
表达 成 肽 链 ， 然 后 折 炙 成 三 维 结构 的 新 功能 和 蛋白质 分 子 ， 比 如 抗 冻 小 麦 、 发 光 的 白鼠 等 。 
这 就 是 基因 融合 。 这 个 过 程 与 协议 融合 类 似 。 

协议 融合 是 无 处 不 在 的 ， 正 如 不 同 快递 公司 之 间 的 合作 一 样 。 甚 至 连 劳 动 合同 方面 都 
出 现 了 融合 ， 劳 务 派 遗 公司 与 劳动 者 签订 合同 ， 然 后 将 劳动 者 输送 到 用 工 单位 工作 ， 用 工 
单位 不 必 维 护 人 事 系统 ， 将 人 事 系统 外 包 给 劳务 派 遗 公司 。 

2. 航空 公司 的 协议 融合 

目前 , 国际 上 的 大 多 数 的 大 型 航空 公司 都 利用 IBM 或 者 Unisys 的 大 型 机 系统 作为 订 票 
和 离 港 系统 的 处 理 机 。 世 界 各 地 的 售票 和 离 港 终端 都 通过 某 种 网 络 系统 与 大 型 机 连接 并 且 
通信 。 航 空 业 的 大 机 与 终端 通信 协议 也 经 历 了 纯 种 和 融合 阶段 。 

IBM 利用 ALC 协议 与 其 终端 通信 ，Unisys 主机 则 通过 UTS 协议 与 其 终端 通信 。 但 是 随 
着 IP 网 络 的 成 本 不 断 降 低 ， 质 量 不 断 提 高 ，UTS 和 ALC 这 两 种 古老 的 纯 种 协议 ， 不 得 不 考 
虑 将 自己 嫁 给 IP 网 络 ， 从 而 出 现 了 MATIP 协议 ， 也 就 是 将 这 些 协议 承载 于 IP 之 上 。Cisco 
公司 也 为 航空 业 专门 开发 了 这 种 融合 协议 ， 称 为 ALPS 协议 。 然 而 ALPS 最 终 没 有 成 为 RFC 
标准 ， 而 MATIP 协议 ， 却 最 终 登 上 了 RFC 宝座 。MATIP 协议 的 文本 可 以 查看 RFC2153. 


13.8 交叉 融合 


本 在 本 书写 作 之 时 ，FCoE 这 个 由 FCP 与 以 太 网 结 姻 所 产生 的 融合 协议 ， 正 在 被 
一 些 厂 商 炒作 得 沸沸扬扬 。FC 协议 与 SCSI 协议 融合 之 后 形成 FCP 协议 ， 而 
H FCP 协议 又 与 Ethernet 融合 形成 FCoE 协议 。 
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如 图 13.2 所 示 是 协议 融合 树 。 


SCSI 协 议 
[EC 协议 [IP 协 议 ATMIR 


FCP 协 议 ISCSI 苏 议 
[PPPHHX Etherneti] IPoA 协 议 


PPPoE 协 议 FCoE HiX IFCP 协 议 
FCIPH it 


IPoE 协 议 


B32 协议 融合 树 
从 图 13.2 可 以 看 到 , FCP 协议 与 IP 协议 融合 的 后 代 是 双胞胎 。 各 种 协议 之 间 相 互 融合 ， 
甚至 产生 了 交叉 ， 但 是 一 切 融合 都 是 为 了 更 好 地 适合 市 场 需求 ， 因 为 在 资本 市 场 经 济 时 代 ， 
只 要 能 满足 需求 ， 就 能 获得 利润 。“ 不 求 最 好 ， 但 求 最 适 。” 


另外 ， 由 于 IP 网 络 的 大 肆 普 及 ， 众 多 的 协议 动 辆 就 要 非 IP 不 嫁 ， 而 IP 和 以 太 
网 绝对 是 铁 哥 们 儿 ， 所 以 以 太 网 也 借 了 Pp 的 光 , 就 赁 着 自己 仅仅 1Gb/s 的 带宽 到 
加 处 招摇 撞 骗 ， 这 不 ， 成 功 地 把 比 它 多 3Gb/s 带宽 的 FCP 协议 给 忽悠 过 来 了 。 不 
过 以 太 网 也 在 潜心 修炼 ， 等 练 成 出 关 之 后 ， 其 10Gb/s 的 速率 ， 将 会 让 人 望 而 生 
是 ， 但 愿 那 时 候 以 太 网 统一 天 下 ! 


13.9 IFCP 和 FCIP 的 具体 实现 


: 回 说 到 IP 根据 网 络 通信 协议 之 间 的 相互 作用 ,成 功 地 将 FC 协议 和 TCP/IP 协议 进行 
生成 一 种 FCIP 的 Tunnel 协议 和 一 种 IFCP 的 Map 协议 。 
蓝图 有 了 ， 那 么 具体 怎么 来 将 其 实现 呢 ?” 我 们 知道 ， 不 管 是 FCP 的 简单 Tunnel 模式 ， 
还 是 IFCP 的 复杂 Map 模式 ， 进 行 这 种 PoP 操作 的 角色 ， 一 定 是 一 端面 对 FC 协议 的 网 络 ， 
另 一 端面 对 TCP/IP 协议 的 网 络 。 

1. 协议 转换 器 

同时 面 对 多 种 协议 ， 并 在 多 种 协议 之 间 实 现 相互 融合 、 相 互 转换 的 设备 ， 就 称 作 协议 
转换 器 。 如 果 这 个 转换 器 只 是 起 到 一 个 桥 联 的 作用 ， 只 在 一 条 链 路 上 串联 ， 那 么 就 称 其 为 
协议 桥接 器 。 如 果 这 种 转换 器 ， 不 但 要 实现 单条 链 路 上 的 协议 转换 工作 ， 而 且 还 需要 实现 
一 些 转发 动作 ， 即 在 多 条 链 路 、 多 个 网 络 之 间 互 相 转发 数据 ， 则 可 以 称 其 为 协议 路 由 转换 
器 。 如 果 某 种 协议 路 由 器 可 以 实现 多 于 2 种 协议 的 网 络 互联 ， 则 称 其 为 多 协议 路 由 转换 器 ， 
因为 它 能 在 多 种 协议 之 间 互 相 转 换 并 做 路 由 转发 。 
SAN 要 想 获得 扩展 性 ， 即 要 想 将 相隔 两 地 很 远 的 两 个 SAN 网 络 通过 IFCP 或 者 FCIP 连 
接 起 来 ， 就 必须 在 双方 的 SAN 系统 前 端 各 增加 一 个 协议 转换 设备 ， 这 个 设备 后 端 连接 各 自 
为 SAN， 前端 连接 IP 网 络 ， 在 广域网 络 上 运行 FCIP 或 者 IFCP 协议 通信 ， 达 到 协议 转换 的 
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目的 。 


两 个 独立 的 系统 连接 起 来 ， 就 涉及 了 两 种 情况 。 


e 第 一 种 : 


e 第 二 种 : 


间 用 协议 转换 设备 连接 。 就 像 以 太 网 络 一 样 ， 如 果 
接连 接 起 来 ， 两 地 的 系统 同 在 一 个 广播 域 中 ， 这 样 就 相当 于 把 两 个 系统 融合 起 


来 了 。 


但 是 如 果 两 地 各 自 接 一 个 IP 路 由 器 ， 广 域 网 链 路 上 承载 的 是 基于 广 域 链 路 协议 之 上 


两 个 系统 融合 成 一 个 大 的 系统 ， 罗 辑 上 是 一 体 的 ， 


两 个 系统 在 连接 之 后 ， 在 逻辑 上 还 是 独立 的 ， 即 一 个 系统 不 影响 另 一 个 
系统 ， 但 是 它们 之 间 可 以 通过 协议 转换 设备 来 通信 。 
只 不 过 相处 两 地 ， 之 


IP 包 ， 那 么 两 地 的 局 域 网 就 没有 被 融合 ， 可 以 只 是 相互 通信 而 已 。 


光缆 将 两 地 的 两 个 局 域 网 直 


c 


有 的 时 候 ， 两 地 的 系统 必须 融合 ， 而 有 的 时 候 ， 不 需要 融合 。 是 否 融 合 ， 需 要 
| 看 最 终 的 需求 。 所 以 协议 转换 设备 也 必须 能 够 处 理 这 两 种 情况 。 对 于 需要 融合 
的 情况 , 协议 转换 设备 不 需 对 两 端的 SAN 逻辑 做 任何 附加 处 理 ,而 只 需要 将 两 


端的 逻辑 Tunnel 或 者 Map 到 广域网 协议 上 就 可 以 了 。 而 对 于 不 需要 融合 的 情 
况 ， 协 议 转 换 设 备 就 需要 对 两 端 系统 的 逻辑 做 一 系列 的 处 理 、 屏 殴 、 虚 拟 和 欺 


骗 了 。 


2. TCP/IP 和 以 太 网 络 实例 解析 


我 们 不 妨 拿 T 


CP/IP 和 以 太 网 络 来 做 一 个 例子 。 


假如 一 个 公司 , 在 a 地 和 b 地 ， 分 别 有 一 个 办 事 处 ， 每 个 办 事 处 有 一 台 以 太 网 交换 机 ， 
上 面 各 连接 了 几 台 终端 。 现 在 为 了 业务 资源 共享 ， 公 司 决定 将 两 地 的 网 络 融 合 起 来 。 公 司 
向 ISP 申请 了 一 条 2Mb/s 的 E1 专线 (当然 也 可 以 申请 Internet 线路 ， 两 端 都 接 入 Internet, 
然后 做 L2VPN 或 者 L3VPN). 

公司 有 两 种 选择 方案 。 

e 一 种 是 直接 用 这 条 专线 把 两 地 的 交换 机 连接 起 来 ， 在 这 条 线路 上 直接 承载 以 太 


网 帧 。 


e ” 男 一 种 选择 就 是 两 端 各 加 一 个 路 


通信 。 
这 个 公司 最 终 


“ 域 网 流量 太 大 ， 


由 器 ， 隔 离 两 边 的 局 域 网 ， 但 是 保持 它们 之 间 的 


选择 了 后 一 种 方案 ， 原 因 就 是 为 了 保持 双方 的 独立 性 ， 同 时 保证 性 能 。 


费 资 源 的 。 在 隔离 


因为 毕竟 是 两 个 办 事 处 ， 如 果 彻 底 进行 融合 ， 不 但 不 安全 ， 也 不 利于 扩展 ， 而 且 容易 造成 
因为 彻底 融合 之 后 ， 以 太 网 广播 就 要 跨 广 域 网 来 互相 传递 ， 这 无 疑 是 浪 


的 基础 上 ， 同 样 能 够 保持 双方 无 障碍 的 相互 通信 ， 


网 内 那样 直接 利 
地 。 虽 然 多 增加 了 
以 做 访问 控制 、 地 
直接 局 域 网 融合 ， 


GEORE 
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H 
则 这 些 特 性 都 不 能 实现 。 


只 是 不 能 像 在 一 个 局 
MAC 来 点 对 点 通信 。 如 果 a 地 某 个 节点 需要 和 b 地 某 个 节点 通信 ，a 
先 把 数据 发 给 a 地 的 路 由 器 ， 也 就 是 网 关 设备 ， 然 后 让 网 关 来 转发 给 b 
一 层 操作 ， 但 是 这 样 做 的 可 扩展 性 、 可 管理 性 都 增强 了 。 在 路 由 器 上 可 
止 转换 、Q0S、 策 略 路 由 等 基于 IP 甚至 TCP 层次 的 个 性 化 动作 。 如 果 是 


第 | 3 章 握手 言 和 一 IP 与 FC 融合 的 结果 


3. SAN 系统 实例 解析 

再 来 看 SAN 的 情况 。 还 是 这 个 公司 ，a 地 和 b 地 各 有 一 个 SAN 系统 。 为 了 实现 存储 资 
源 直接 共享 ， 公 司 决定 将 这 两 个 SAN 联通 起 来 。 同 样 也 存在 两 种 情况 ， 即 彻底 融合 或 者 相 
对 独立 的 连通 。 

如 果 是 彻底 融合 的 话 , 那么 广域网 链 路 就 完全 相当 于 一 条 ISL 链 路 , 只 不 过 通信 协议 可 
能 是 FCIP 或 者 IFCP 协议 。 

对 于 FCIP, 任何 FC 帧 都 将 被 透明 的 传递 .对 于 IFCP, 一 部 分 FC 帧 会 被 屏蔽 或 者 MAP. 
但 是 这 些 被 屏蔽 或 者 MAP 的 帧 ， 都 是 和 底层 通信 有 关 的 ， 而 上 层 逻 辑 性 质 的 帧 ，IFCP 也 需 
要 透 传 到 对 端 。 

这 些 业 务 逻 辑 性 质 的 帧 ， 比 如 RSCN 帧 ， 这 种 用 来 传递 Fabric 网 络 中 的 重要 变化 信息 
给 已 经 注册 了 这 项 服务 的 节点 ， 再 比如 Plogin，Process Login 等 这 些 都 是 业务 逻辑 性 质 的 ， 
和 底层 通信 无 关 。 
彻底 融合 之 后 ， 两 个 SAN 系统 就 融合 为 了 一 个 系统 ， 那 么 这 个 系统 就 会 有 一 个 主 交换 
机 , 主 交换 机 为 系统 中 其 他 交换 机 分 配 域 ID, 并 且 两 个 交换 机 之 间 需 要 运行 FSPF 路 由 协议 ， 
不 停 的 发 送 一 些 路 由 控制 帧 ,再 加 上 主 交 换 机 选举 时 产生 的 帧 , 主 交 换 机 失败 时 ,整个 Fabric 
4 重建 过 程 中 每 个 交换 机 发 出 的 各 种 帧 都 需要 经 过 广域网 链 路 进行 传送 。 
不 但 这 些 帧 要 占用 广域网 带宽 ， 而 且 一 旦 主 交换 机 发 生 故 障 ， 那 么 对 方 的 SAN 系统 会 
进行 Rebuild, 包括 重新 选举 主 交换 机 、 重 新 建立 路 由 表 等 , 这 个 过 程 中 , 10 就 会 暂时 中 断 。 


Im 
cr 


放电 于 广域网 链 路 速度 相对 慢 ， 稳 定性 相对 差 ， 所 以 一 旦 这 条 链 路 发 生 不 稳定 的 
总 振荡 ， 那 么 就 会 造成 主 交换 机 重新 选举 。 如 果 链 路 频繁 闪 断 的 话 ， 那 么 两 端的 
SAN 系统 根本 无 法 正常 工作 了 。 


所 以 说 ， 两 地 SAN 系统 彻底 融合 的 话 ， 一 旦 某 地 的 系统 故障 ， 就 会 影响 到 另 一 个 系统 


的 正常 运行 ， 而 且 要 占用 额外 多 的 宝贵 的 广域网 资源 。 由 于 访问 存储 资源 对 性 能 和 延迟 要 
求 较 高 ， 所 以 彻底 融合 两 个 SAN， 最 好 只 在 局 域 网 内 进行 ， 交 换 机 间 的 链 路 最 好 是 裸 光 线 


或 者 高 速 链 路 ， 和 否则 最 好 采用 另外 一 种 融合 方式 ， 即 逻辑 独立 、 全 局 连通 的 融合 方式 。 
13.10 ”局 部 隔离 /全 局 共享 的 存储 网 络 


将 SAN 系统 彻底 融合 ， 扩 展 性 差 、 管 理性 差 ， 而 且 耗 费 广 域 网 链 路 资源 。 所 以 这 个 公 
司 同 样 也 选择 了 相对 独立 的 连通 方式 。 下 面 来 看 一 下 ， 相 对 独立 的 融合 ， 到 底 是 个 什么 概 
念 ， 它 的 作用 机 制 是 怎样 的 。 

“a 地 的 SAN 交换 机 (E 端口 ) 一 a 地 协议 转换 器 一 广域网 链 路 一 b 地 协议 转换 器 一 (E 端 
Jb 地 SAN 交换 机 ”这 种 拓扑 不 管 是 彻底 融合 ， 还 是 独立 融合 都 一 样 ， 只 不 过 协议 转换 器 
在 两 种 方式 下 所 作 的 工作 不 一 样 。 彻底 融合 方案 中 , 协议 转换 只 Tunnel 或 者 Map 通信 底层 
的 协议 逻辑 ， 而 不 管 上 层 业 务 逻 辑 ， 也 就 是 只 要 从 E 端口 收 到 了 帧 ， 协 转 就 将 其 Tunnel 或 
者 Map 到 IP 协议 中 发 送 给 对 端 。 而 相对 独立 的 融合 ， 不 但 要 Tunnel 或 者 Map 底层 协议 逻 
辑 帧 ， 它 还 要 理解 FC 的 上 层 逻 辑 ， 做 到 “报喜 不 报 忧 ”。 
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独立 融合 /全 局 共享 

所 谓 独立 融合 ， 就 是 说 两 端的 SAN 系统 都 可 以 独立 运作 ， 而 不 依靠 另 一 方 ， 或 者 受 另 
一 方 的 影响 。 这 样 就 不 能 像 彻底 融合 那样 一 端 为 主 交换 机 ， 一 端 为 非 主 交换 机 ， 而 要 让 两 
端 独立 起 来 。 由 于 两 端的 Fabric 中 都 各 自 只 有 一 台 SAN 交换 机 ,所 以 两 端的 SAN 交换 机 都 
是 主 交 换 机 ， 各 自 为 政 。 

既然 这 样 ， 怎 么 能 和 对 方 的 SAN 进行 通信 呢 ? 协议 路 由 器 自 有 其 招数 。 协 议 路 由 器 与 
SAN 交换 机 之 间 通 过 E 端口 连接 ， 它 欺骗 两 端 SAN 交换 机 ， 让 交换 机 认为 它 正 在 连接 着 另 
一 台 交 换 机 ， 而 这 个 由 协议 转换 器 虚拟 出 来 的 交换 机 级 别 比 它 低 ， 所 以 它 自己 认为 自己 就 
是 主 交换 机 。 虚 拟 交换 机 和 SAN 交换 机 之 间 运 行 FSPF 路 由 协议 ， 所 以 这 个 虚拟 交换 机 就 
获得 了 SAN 交换 机 下 面 所 有 连接 的 终端 节点 信息 。 
获得 这 些 信息 之 后 ，a 地 的 协 转 通过 广域网 链 路 将 这 些 信息 通告 给 b 地 的 协议 转换 器 。 
b 地 的 协议 转换 器 同样 和 b 地 的 SAN 交换 机 之 间 运 行 着 FSPF 路 由 协议 ， 同 样 也 欺骗 了 b 
地 交换 机 。b 地 协议 转换 器 收 到 了 a 地 协议 转换 器 发 来 的 关于 a 地 SAN 交换 机 上 所 连接 的 
所 有 节点 信息 之 后 ， 就 利用 和 b 的 SAN 交换 机 之 间 的 FSPF 路 由 协议 ， 将 这 些 节 点 信息 通 
告 给 b 地 SAN 交换 机 ， 所 以 b 交换 机 就 有 了 a 交换 机 上 节点 的 信息 ， 同 样 a 交换 机 也 会 拥 
有 b 交换 机 上 节点 的 信息 ， 这 样 ，a 和 b 交换 机 之 间 就 可 以 通信 了 ， 其 实 它们 都 不 知道 中 途 
有 两 个 中 介 在 骗 它们 。 

如 果 其 中 一 个 SAN 系统 发 生 故 障 ， 那 么 这 个 系统 中 的 协 转 设备 ， 会 将 这 个 重大 消息 屏 
i, APUD SAN 系统 。 因 为 一 旦 被 对 方 系统 得 知 ， 便 会 发 生 Fabric 的 重建 过 程 ， 影 
响 本 端 SAN 系统 的 10。 有 了 SAN 路 由 器 ， 远 端 SAN 访问 的 超时 ， 并 不 会 影响 本 地 SAN 的 
访问 。 此 即 所 谓 的 “报喜 不 报 忧 ”。 同 样 ， 一 个 SAN 系统 中 的 诸如 RSCN 等 广播 类 的 帧 ， 
也 会 被 协 转 设备 根据 策略 而 终结 在 本 地 ， 不 会 跨越 广域网 链 路 通告 给 对 方 。 协 转 设备 还 应 
该 具有 访问 控制 功能 。 

这 种 方案 被 称 作 “SAN 路 由 ”， 因 为 它 具 有 像 IP 路 由 类 似 的 功能 和 架构 。 


13.11 多 协议 混杂 的 存储 网 络 


如 图 13.3 所 示 , 其 中 的 中 枢 引擎 是 两 个 互相 连接 的 多 协议 路 由 器 。 这 个 多 协议 处 理 机 ， 
就 像 一 台 计算 机 的 CPU, Fabric 和 以 太 网 络 就 像 计算 机 的 10 总 线 ， 磁 盘 便 是 计算 机 的 外 设 
和 输入 设备 ， 各 种 存储 控制 器 便 可 以 理解 为 计算 机 上 的 各 种 10 控制 器 ， 前 端的 Fabric 和 以 
太 网 便 是 前 端的 10 总 线 ， 主 机 服务 器 则 是 输出 设备 。 即 磁盘 上 的 数据 ， 经 过 输入 总 线 输入 
CPU 进行 运算 ， 然 后 通过 输出 总 线 ， 输 出 给 主机 服务 器 。 这 又 是 一 个 轮回 ， 不 折 不 扣 的 轮 
E, HWRE, KEE. 

图 13.3 所 示 的 拓扑 , 可 以 说 是 一 个 大 的 统一 的 拓扑 。 存 储 网 络 不 外 平 就 是 图 13.3 中 列 
出 的 元 素 。 磁 盘 经 过 一 层 层 的 IN 和 OUT, 一 层 层 的 虚拟 化 或 者 桥接 透 传 ,最终 被 主机 看 作 
是 一 个 LUN 或 者 目录 。 不 妨 将 其 抽象 ， 隐 去 复杂 的 部 分 ， 就 形成 了 图 13.4 的 拓扑 。 

再 抽象 一 下 ， 如 图 13.5 所 示 。 


1 3101 


TT STO 


WT 一 远 汝 存储 路 由 器 


图 13.3_ 多 协议 混杂 的 存储 网 络 
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图 13.4_ 一 次 抽象 后 的 系统 架构 
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图 13.5 本 质 模型 
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e 虚拟 化 
* InBand 
* Out Band 


“计算 机 科学 中 的 任何 问题 ， 都 可 以 通过 加 上 一 层 逻 辑 来 解决 。” 
计算 机 科学 家 David Wheeler 


目前 形形色色 的 软件 层出不穷 ， 可 是 它们 都 脱离 不 了 一 个 基础 ， 那 就 是 计算 机 硬 
件 系 统 。 如 CPU、 内 存 和 各 种 IO 接口 ， 以 及 连接 它们 ， 使 它们 之 间 相 互通 信 的 总 线 。 

CPU 内 部 是 大 量 的 集成 逻辑 电路 ，CPU 不 断 受 到 一 种 电信 号 的 “刺激 ”， 这 种 刺 
激 经 过 CPU 内 部 的 逻辑 电路 的 一 层 层 的 传递 转换 , 最 终 输出 另 一 种 电信 号 。 这 种 输入 、 
输出 动作 ， 是 有 一 定 逻 辑 的 。 通 过 编写 汇编 代码 ， 可 以 实现 对 CPU 内 部 逻辑 电路 的 刺 
激 ， 并 引起 一 系列 的 逻辑 输出 。 将 这 些 逻 辑 映射 到 人 们 所 能 理解 的 知识 上 ， 比 如 输出 1 
代表 对 ， 输 出 0 代表 错误 ， 或 者 如 果 输 出 1 则 继续 刺激 ， 输 出 0 则 停止 刺激 等 ， 这 样 
就 构成 了 从 基本 的 逻辑 电路 ， 到 复杂 的 思维 逻辑 的 映射 ， 由 简单 逻辑 的 层 层 说 套 ， 构 
成 了 复杂 逻辑 。 将 汇编 语言 ， 用 人 类 容易 理解 的 语言 抽象 出 来 ， 就 形成 了 高 级 语言 。 
将 高 级 语言 的 意思 ， 转 换 成 低级 语言 的 过 程 ， 就 是 编译 。 比 如 说 : 冬瓜 ， 而 用 低级 语 
言 表示 冬瓜 这 个 意思 ， 就 是 : W, W, A B” g’ Wene et 
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14.1 


我 们 知道 ， 早 期 的 计算 机 系统 ， 


程序 来 运行 程序 ， 而 不 是 


hi 
质 ， 


终止， 
如 果 有 10 个 人 要 用 一 


间 ， 


首先 
程序 
但 是 
序 执 


事件 ， 


实 是 没有 操作 系统 的 ， 
算 机 硬件 执行 的 一 种 程序 。 Praia 一 种 可 以 提供 给 3 
1 程序 自己 来 运行 ， 这 是 操作 系统 提供 的 一 种 虚拟 化 表现 。 


1. 早期 计算 机 单 任务 模式 
只 能 允许 执行 一 个 任务 ， 整 个 计算 机 只 能 被 这 个 程序 独占 


对 于 早期 计算 机 来 说 ， 


再 插入 另 一 
就 要 重新 运行 。 


会 有 空闲 状态 


台 计 算 机 来 执行 程序 ， 第 一 个 人 拿 着 他 的 软盘 ， 上 再 
题 计 算 程序 ， 他 插入 软盘 ， 然 后 重启 机 器 ， 机 器 从 软盘 特定 的 扇 区 载 入 程序 人 
果 显 示 在 显示 器 上 ， 比 如 这 个 程序 2 个 小 时 运行 完毕 ， 第 一 个 人 从 显 
了 。 后 面 有 9 个 人 在 排队 等 待 用 计算 机 。 然 后 第 Re 
每 次 更 换 程序 ， 都 需要 重新 启动 机 器 ， 
， 则 其 他 程序 也 仍然 需要 等 待 ，CPU pestem 


2. 操作 系统 的 多 任务 模式 


操作 系统 的 出 现 解决 了 这 两 个 问题 。 操 作 系统 本 身 也 是 一 
系统 ， 随 时 可 以 载 入 其 他 程序 执行 ， 
并 切换 到 这 段 代 码 上 让 CPU 执行 ， 执 行 完毕 后 则 立即 切换 回 操作 系统 本 身 。 
是 要 等 待 这 个 程序 执行 完毕 ， 才 能 接着 载 入 下 一 个 程序 执行 。 
， 不 能 做 任何 其 他 的 事情 ， 包 括 操作 系统 本 身 
都 会 中 断 正在 运行 的 程序 。 
会 将 CPU 使 用 权 归 还 操作 系统 ， 
这 种 操作 系统 称 为 单 任 务 操 作 系 统 ， 典 型 代表 就 
一 旦 在 DOS 中 载 入 一 个 程序 执行 ， 如 果 没 有 任何 


运行 操 人 
的 代码 ， 
每 次 也 总 
行 的 时 全 


程序 执行 完毕 之 后 ， 


简直 就 是 


也 就 


是 DOS。 


是 说 它 可 以 随时 从 软盘 上 读 


操作 系统 对 硬件 的 虚拟 化 


因为 操作 系统 本 身 也 是 靠 计 
其 他 程序 方便 编写 并 运行 的 程序 


开机 ， 从 软盘 或 者 其 他 介质 上 执行 程序 ， 直 到 执行 完毕 或 者 人 为 中 断 。 执 行 完 后 拿 出 介 
张 介质 ， 重 新 载 入 执行 另 一 个 新 的 程序 。 在 执行 程序 的 过 程 中 ， 


一 旦 意外 


i 有 一 个 数学 
尺码 执行 ， 结 
Lis EP PAR. OE 
插入 软驱 ， 重 
。 再 者 ， 如 果 某 个 程序 运行 期 


段 程 序 ， 计 算 机 加 电 之 后 ， 


区 其 他 


当 被 载 入 的 程 
程序 模块 ， 任 何 产生 中 类 的 


从 而 继续 操作 系统 本 身 的 运行 。 


bh 断 事件 发 生 ， 则 这 个 程序 就 独占 


CPU， 执 行 完毕 之 后 ， 回 到 DOS 操作 系统 ， 接 着 可 以 继续 执行 男 外 一 个 程序 。 经 过 这 样 的 


解决 ， 执 行 多 个 程序 ， 期 间 就 


再 也 不 用 重新 启动 机 器 了 。 
在 这 个 基础 上 ， 操 作 系统 又 将 多 个 程序 一 个 接 一 个 的 排列 起 来 ， 成 # 


掉 了 人 为 载 入 程序 的 过 程 ， 这 个 叫做 批 处 理 。 批 处 理 操 f 


作 系 
所 在 


个 应 


以 顺序 的 、 无 须 人 了 


一 个 程序 独占 资源 。 


统 中 的 调度 程序 。 
的 内 存 地 址 


其 本 质 还 是 单 任务 性 ， 


日 程序 所 在 的 内 存 地 址 


[干预 的 批 
H 


再 后 来 ， 操 作 系统 针 对 系统 时 包 
时 钟 中 断 到 来 的 时 候 ，CPU 根据 中 断 向 量 表 的 内 容 ， 指 向 调度 程序 
入 口 ， 执 行 调度 程序 的 代码 ， 调 度 程序 所 作 的 就 是 将 CPU 的 执行 跳 转 到 各 
ph 断 ， 调 度 程序 以 一 定 的 优先 级 ， 指 向 不 同 程序 的 


一 段 时 


AO. xy 


LAT. PRE 
系统 ， 相 对 于 单 任务 操作 系统 来 


量 执行 程序 ， 
间 之 内 ， 仍 然 


ANS 


和 中断 ， 开 发 了 专门 


比 简单 


只 会 观 


的 单 任务 操作 系统 又 进 了 一 步 ， 
察 到 一 个 应 用 程序 在 运行 ， 仍 然 


的 中 断 服务 程序 ， 也 就 是 多 任务 操 
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入 口 。 这 样 就 能 做 到 极 细 粒 度 的 应 用 程序 入 口 切换 ， 如 果 遇 到 某 个 程序 还 没有 执行 完毕 就 
被 切 出 了 ， 则 操作 系统 会 自动 将 这 个 程序 的 运行 状态 保存 起 来 ， 待 下 次 轮 到 的 时 候 ， 提 取 
出 来 继续 执行 。 比 如 每 10ms 中 断 一 次 ， 那 么 也 就 是 说 每 个 应 用 程序 ， 可 以 运行 10ms 的 时 
间 ， 然 后 CPU 运行 下 一 个 程序 ， 这 样 依次 轮回 。 微 观 上 ， 每 个 程序 运行 的 时 候 ， 还 是 独占 
CPU, 但 是 这 个 独占 的 时 间 非 常 小 , 通常 10ms， 那么 一 秒 就 可 以 在 宏观 上 “同时 ”运行 100 
个 程序 。 这 就 是 多 任务 操作 系统 。 多 任务 操作 系统 的 关键 ， 就 是 具有 多 任务 调度 程序 。 
通过 这 样 的 虚拟 化 ， 运 行 在 操作 系统 之 上 的 所 有 程序 都 会 认为 自己 是 独占 一 台 计 算 机 
的 硬件 运行 。 

3. 虚拟 化 的 好 处 
上 面 说 了 计算 机 硬件 以 及 操作 系统 ， 其 实 计算 机 系统 从 诞生 的 那 一 天 开始 ， 就 在 不 断 
地 进行 着 虚拟 化 过 程 ， 时 至 今日 ， 计 算 机 虚拟 化 进程 依然 在 飞快 发 展 着 。 

硬件 逻辑 被 虚拟 化 成 汇编 语句 ， 汇 编 语句 再 次 被 封装 ， 虚 拟 化 成 高 级 语言 的 语句 。 高 
级 语言 的 语句 ， 再 次 被 封装 ， 形 成 一 个 特定 目的 的 程序 ， 或 者 称 为 函数 ， 然 后 这 些 函 数 ， 
再 通过 互相 调用 ， 生 成 更 复杂 的 函数 ， 再 将 这 些 函数 组 合 起 来 ， 就 形成 了 最 终 的 应 用 程序 。 
悍 序 再 被 操作 系统 虚拟 成 一 个 可 执行 文件 。 其 实 这 个 文件 代表 了 什么 呢 ? 到 了 底层 ， 其 实 
就 是 一 次 一 次 的 对 CPU 的 电路 信号 刺激 。 也 就 是 说 ， 硬 件 电路 逻辑 ， 一 层 层 的 被 虚拟 化 ， 
终 虚 拟 成 一 个 程序 。 程 序 就 是 对 底层 电路 上 下 文 罗 辑 的 另 一 种 表达 形式 。 

虚拟 化 的 好 处 显而易见 ， 虚 拟 化 将 下 层 的 复杂 录 辑 ， 转 变 为 上 层 的 简单 逻辑 ， 方 便 人 
类 读 懂 ， 也 就 是 说 “科技 ， 以 人 为 本 ”。 任 何 技 术 ， 都 是 为 了 将 上 层 罗 辑 变 得 更 加 简单 ， 
而 不 是 越 变 越 复杂 ， 当 然 使 上 层 越 简单 ， 下 层 就 要 做 更 多 的 工作 ， 就 越 复杂 。 

整个 计算 机 技术 ， 从 开始 到 现在 ， 就 是 一 个 不 断 的 抽象 、 封 装 、 虚 拟 、 映 射 的 过 程 ， 
到 现在 还 在 不 断 抽 象 封装 着 ， 比 如 Java 等 比 C 抽象 封装 度 更 高 的 高 级 语言 ， 当 然 使 用 
C 方便 和 简单 多 了 ， 但 是 随 之 而 来 的 ， 其 下 层 就 要 复杂 一 些 ， 所 以 Java 代码 一 般 
运行 速度 慢 ， 耗 费 资 源 也 大 ， 但 是 对 于 现在 飞速 发 展 的 硬件 能 力 ， 是 不 成 问题 的 。 

司 样 ，CPU 也 不 仅仅 只 是 一 味 地 增加 晶体 管 数量 这 么 简单 。CPU 制造 者 也 在 想 尽 办 法 
将 一 些 功能 封装 到 CPU 的 逻辑 电路 中 ， 从 而 出 现 了 更 多 的 指令 集 ， 这 些 指令 集 就 像 程 序 函 
数 一 样 ， 不 必 理 解 它 内 部 到 底 怎 么 实现 的 ， 只 需要 发 给 CPU, CPU 就 会 启动 逻辑 电路 计算 。 
到 目前 为 止 ，Intel 的 CPU CARES TIRA 2 代 四 核 。 主 频 1.6GHz 的 酷 害 双核 CPU， 竞 
然 性 能 比 主 频 3GHz 甚至 超频 到 4GHz 的 奔腾 4 代 CPU 还 高 。 所 以 CPU 的 设计 除了 提高 主 
ji 更 重要 的 是 内 部 逻辑 的 优化 ， 集 成 度 的 提高 ， 更 多 的 抽象 和 封装 。 


虚拟 化 的 思想 在 计算 机 的 各 个 方面 都 是 存在 的 ， 比 如 经 典 的 OSI 模型 ， 就 是 一 
| 个 不 折 不 扣 的 抽象 虚拟 模型 。 尤 其 是 TCP/IP 协议 给 上 层 抽 象 出 来 的 Socket 接 
Es 口 ， 即 “插座 接口 ”， 也 可 以 理解 为 ， 只 要 将 插头 接 上 这 个 插座 ， 就 会 和 网 络 
接 通 ， 而 不 必 管 它 是 怎么 实现 的 ， 就 像 将 交流 电 插头 插入 市 电 插座 一 样 ， 插 上 
就 获得 了 电压 ， 而 不 用 管 市 电 电网 的 拓扑 ， 更 不 用 关心 国家 总 电网 的 拓扑 了 。 
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大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


14.2 计算 机 存储 子 系统 的 虚拟 化 


上 面 说 了 很 多 关于 汇编 和 操作 系统 的 虚拟 抽象 ， 下 面 说 说 计算 机 系统 中 的 存储 子 系统 
中 的 虚拟 化 。 
存储 子 系统 的 元 素 包括 : 磁盘 、 磁 盘 控 制 器 、 存 储 网 络 、 磁 盘 阵 列 、 卷 管理 层 、 目 录 
虚拟 层 、 文 件 系 统 虚拟 层 。 我 们 就 从 下 到 上 ， 一 一 描述 这 几 个 元 素 ， 看 看 存储 子 系统 是 怎 
么 抽象 虚拟 的 。 

1. 磁盘 控制 器 

磁盘 控制 器 的 工作 就 是 根据 驱动 程序 发 来 的 磁盘 读 写 信息 ， 向 磁盘 发 送 SCSI 指令 和 数 
据 。 这 个 部 件 看 似 没有 什么 可 抽象 虚拟 的 东西 ， 其 实 磁盘 控制 器 完全 可 以 对 其 驱动 程序 隐 
藏 其 下 挂 的 物理 磁盘 ， 而 虚拟 出 一 个 或 者 多 个 虚拟 磁盘 。 由 控制 器 来 完成 虚拟 磁盘 和 物理 


磁盘 的 映射 和 抽象 虚拟 。RAID 就 是 一 个 点 型 代表 ,控制 器 将 物理 磁盘 组 成 RAID Group， 然 
后 在 RG 的 基础 上 ， 虚 拟 出 多 个 LUN， 通 告 给 主机 驱动 。 
2. 存储 网 络 


早期 的 存储 子 系统 ， 没 有 网 络 化 ， 而 目前 的 存储 系统 ， 网 络 化 已 经 非常 彻底 。 从 磁盘 
到 磁盘 阵列 控制 器 ， 从 磁盘 阵 控 制 器 到 主机 总 线 适 配器 ， 都 已 经 嵌入 了 网 络 化 元 素 。 比 如 
使 用 FC 协议 ， 或 者 TCP/IP 协议 、SAS 协议 、Infiniband 协议 等 。 那 么 在 这 一 层 上 ， 有 什么 
可 以 抽象 的 么 ?网 络 化 只 是 为 部 件 之 间 提 供 了 一 种 可 扩展 的 传输 通路 而 已 ， 貌 似 在 这 个 层 
面 上 不 能 做 出 什么 大 文章 来 。 
实则 不 然 , 这 一 层 也 是 有 所 深究 的 。 在 交换 式 SAN P, 不 管 是 基于 TCP/IP 协议 的 还 是 
基于 FC 协议 的 SAN， 网 络 中 的 任何 节点 ， 都 是 通过 交换 设备 来 互相 通信 ， 这 是 节点 间 通 信 
的 必 经 之 路 。 如 果 在 交换 设备 上 做 点 手脚 ， 就 完全 可 以 达到 虚拟 化 的 效果 。 

要 抽象 一 种 逻辑 ， 那 么 一 定 要 理解 这 种 逻辑 ， 所 以 我 们 可 以 在 FC 交换 机 或 者 以 太 网 交 
KALE, A SCSI 协议 感知 模块 。 比 如 某 个 N 节点 向 另 一 个 N 节点 Report LUN 的 时 候 ， 
交换 机 收 到 这 个 Frame， 则 可 以 感知 这 个 N 节点 的 LUN 信息 。 如 果 此 时 网 络 中 还 有 另 一 个 
节点 的 LUN 信息 , 则 可 以 在 交换 机 这 一 层 , 达到 这 两 个 节点 的 LUN 的 镜像 。 也 就 是 说 , SCSI 
发 起 设备 向 目标 设备 传输 的 数据 ， 经 由 交换 机 的 时 候 ， 交 换 机 内 嵌 的 虚拟 化 模块 ， 会 主 避 
复制 对 应 的 帧 到 另 一 个 节点 的 LUN 上， 让 这 两 个 LUN 形成 镜像 ， 当 其 中 一 个 节点 故障 的 时 
候 ， 交 换 机 因为 知道 此 时 还 有 一 个 备份 镜像 LUN 存在 ， 所 以 并 不 会 向 发 起 者 通告 失败 ， 而 
是 默默 的 将 发 起 者 的 数据 重 定 向 到 这 个 镜像 的 LUN， 发 起 设备 并 不 会 感知 ， 这 样 ， 就 达 型 


了 基于 网 络 层 的 虚拟 化 抽象 。 

当然 ， 网 络 层 的 虚拟 化 ， 并 不 只 是 镜像 ， 比 如 将 某 些 N 节点 的 LUN 合并 成 一 个 池 ， 然 
后 动态 的 从 这 个 池 中 再 划分 出 虚拟 LUN， 向 发 起 者 报告 等 。 基 于 这 些 思想 ， 已 经 开发 出 了 
智能 FC 交换 机 。 
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3. 磁盘 阵列 


磁盘 阵列 可 以 说 本 身 就 是 一 个 小 计算 机 系统 JBOD 除外 )， 这 个 系统 五 脏 俱全 ， 是 对 存 
储 子 系统 的 抽象 虚拟 化 最 佳 的 表现 。 磁 盘 阵 列 ， 简 要 地 说 ， 就 是 将 大 量 磁盘 进行 组 织 管理 ， 
抽象 虚拟 ， 最 终 形成 虚拟 的 逻辑 磁盘 ， 最 后 通过 和 主机 适配器 通信 ， 将 这 些 逻 辑 磁盘 呈现 
给 主机 。 这 个 功能 和 前 面 提 到 的 磁盘 控制 器 的 功能 类 似 ， 但 是 磁盘 阵列 能 比 狭义 的 磁盘 控 
制 器 提供 更 多 的 特色 功能 ， 况 且 简单 的 插 在 主机 10 总 线 上 的 那 种 RAD 磁盘 控制 器 ， 其 接 
入 磁盘 数量 有 限 ， 功 能 也 有 限 。 

大 型 磁盘 阵列 ， 有 自己 的 控制 器 ， 有 的 利用 嵌入 式 技术 ， 将 特别 定制 的 操作 系统 及 其 
核心 管理 软件 撕 入 芯片 中 ， 来 管理 整个 控制 器 并 实现 其 功能 ， 有 的 则 干脆 利用 现成 的 主机 
来 充当 盘 阵 控制 器 的 角色 ， 比 如 IBM 的 DS8000 系列 盘 阵 ， 内 部 就 是 用 的 两 台 IBM P JI 
小 型 机 作为 其 组 织 管理 磁盘 的 控制 器 ， 其 上 运行 AIX 操作 系统 和 相应 的 存储 管理 软件 。 

不 管 是 嵌入 式 ， 还 是 主机 式 的 ， 盘 阵 控制 器 所 担任 的 角色 都 是 类 似 的 。 这 个 中 心 控制 
器 ， 不 直接 参与 连接 每 块 磁盘 ， 而 是 利用 后 端 适配器 来 管理 下 挂 的 磁盘 ， 由 后 端 适配器 向 
其 上 级 汇报 。 

这 些 适 配器 , 就 是 由 中 心 控制 器 驱动 的 二 级 磁盘 控制 器 , 这 些 磁盘 控制 器 作为 中 心 CPU 
的 10 适配器 ， 直 接 控制 和 管理 物理 磁盘 ， 然 后 由 中 心 控制 器 统一 实现 RAID、 卷 等 高 级 功 
能 (有 些 盘 阵 则 可 以 将 简单 的 RAID 功能 直接 下 放 给 二 级 控制 器 来 做 )。 后 端 适配器 与 中 心 控 
制 器 CPU 之 间 通 过 某 种 总 线 技术 连接 ， 比 如 PCIX, PCIE 总 线 等 。 中心 控制 器 对 这 些 磁盘 进 
行 虚 拟 抽象 之 后 ， 通 过 前 端的 接口 ， 向 最 终 使 用 它 的 主机 进行 通告 。 中 心 控 制 器 不 但 可 以 
实现 最 基本 的 RAID 功能 ， 而 且 可 以 实现 很 多 高 级 功能 ， 比 如 LUN 镜像 、 快 照 、 远 程 复制 、 
CDP 数据 保护 、LUN 再 分 配 等 。 在 磁盘 阵列 上 实现 虚拟 化 ， 是 目前 最 广泛 的 一 种 存储 系统 
虚拟 化 形式 。 

有 些 产 品 甚至 学 成 了 借 花 献 佛 的 本 领 。 比 如 NetApp 公司 V 系列 NAS 网 关 、HDS 公司 
的 某 些 存 储 设备 以 及 IBM 公司 的 SVC。 这 些 设 备 既 可 以 当主 机 使 用 ， 又 可 以 当 存 储 设备 使 
用 ， 面 对 存储 ， 它 就 是 主机 ， 而 面 对 主机 的 时 候 ， 它 就 是 存储 ， 如 图 14.1 所 示 。 


服务 器 | 
主机 


HOST. RAEL 
REdESLUNE! 
o ARTE! 


SANA UL 


[. wann 磁盘 阵列 2 "mS 


Bla: eem 
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向 外 提供 LUN， 明 明 就 是 自己 向 别人 租赁 来 的 然后 又 装修 了 一 把 ， 转 租 出 去 。 


乍 一 感觉 这 台 鹿 拟 化 设备 也 真 够 无 奈 的 ， 明 明 自 己 没有 磁盘 却 能 躁 着 别人 的 脚 
b 
可 加 但 是 我 们 非常 需要 这 种 设备 ， 因 为 它 帮 了 大 忙 。 


假如 ， 图 14.1 中 磁盘 阵列 1 的 容量 为 1TB， 磁 盘 阵 列 2 的 容量 为 1TB， 而 某 台 主机 需 
要 一 个 容量 为 2TB 大 小 的 LUN， 这 怎么 办 呢 ? 我 们 可 以 在 主机 上 安装 卷 管理 软件 ， 让 VM 
把 这 两 个 1TB 的 LUN 合并 成 一 个 2TB 的 卷 即 可 。 但 是 这 么 做 需要 耗费 主机 资源 ， 且 虚拟 好 
的 新 LUN 只 能 给 这 台 主 机 使 用 。 而 一 些 旧 的 低 端 设备 ， 由 于 其 容量 和 性 能 等 已 经 不 能 满足 
要 求 ， 如 果 可 以 将 这 些 设备 挂 到 这 台 虚 拟 化 设备 上 ， 作 为 一 个 二 线 存储 资源 ， 这 样 就 将 所 
有 的 存储 资源 整合 到 了 一 起 ， 统 一 管理 和 分 配 。 
要 想 获 得 足够 的 性 能 和 灵活 性 ， 就 需要 我 们 图 14.1 所 示 的 虚拟 化 设备 了 。 
这 个 设备 在 盘 阵 端 (后 端 ) 的 FC HBA 卡 处 于 FC Initiaor 模式 ， 即 在 后 端 ， 这 台 设 备 以 主 
机 模式 出 现 。 而 在 前 端 (主机 端 )， 这 台 设 备 的 FC HBA 卡 为 FC Target 模式 ， 即 它 以 盘 阵 的 
角色 出 现 。 这 样 ， 这 台 设 备 就 可 以 从 其 后 端 掌管 LUN， 然 后 将 这 些 LUN 合并 并 再 次 灵活 分 
割 ， 呈 交 给 其 前 端的 多 台 主 机 使 用 。 除 了 简单 的 合并 再 分 割 LUN 之 外 ， 这 台 设 备 还 可 以 做 
许多 其 他 数据 管理 操作 ， 比 如 将 两 个 LUN 镜像 、 快 照 、CDP 等 。 
4. 卷 管理 层 
卷 管理 层 是 指 运行 在 应 用 主机 上 的 功能 模块 。 它 负责 底层 物理 磁盘 或 者 LUN 的 收集 入 
再 分 配 。 经 过 盘 阵 控制 器 虚拟 化 之 后 生成 的 LUN 提交 给 主机 使 用 , 主机 可 以 对 这 些 LUN 进 
行 再 次 抽象 和 虚拟 ， 也 就 是 重复 虚拟 化 ， 比 如 对 其 中 两 个 LUN 进行 镜像 处 理 ， 或 者 对 其 中 
的 多 个 LUN， 做 成 一 个 软 RAID 系统 。 再 或 者 将 所 有 LUN 合并 ， 形 成 一 个 大 的 资源 池 ， 然 
后 像 狂 面团 一 样 狂 成 多 个 卷 ， 这 个 过 程 和 磁盘 控制 器 。 盘 阵 控 制 器 所 做 的 虚拟 化 动作 类 似 ， 
但 是 这 个 动作 是 在 主机 上 实现 的 。 典 型 的 卷 管理 软件 有 LVM， 或 者 第 三 方 的 软件 ， 比 妇 
Veritas 公司 的 VxVM。 


5. 文件 系统 

数据 只 是 存储 到 磁盘 上 就 完了 么 ? 显然 不 是 。 打 个 比方 ， 有 位 记者 早晨 出 去 采访 ， 手 
中 拿 了 一 操 纸 ， 他 每 看 到 一 件 事 就 记录 下 来 。 对 于 “怎么 将 字 写 在 纸 上 ” 这 个 问题 ， 他 是 
这 么 解决 的 ， 他 用 笔 在 格子 上 写字 ， 写 满 一 行 再 写 下 一 行 ， 还 不 够 就 换 一 张 纸 。 对 于 “ 怎 
么 让 自己 在 纸 上 写 字 ” 这 个 问题 ， 是 他 自己 通过 大 脑 (控制 器 )， 通 过 神经 网 络 (SCSI RA), 
操纵 自己 的 手指 (磁头 臂 )， 拿 着 笔 ( 磁 头 )， 看 见 有 格子 ， 就 向 里 写 。 这 两 个 问题 都 解决 了 。 
可 是 这 一 天 下 来 ， 他 回去 想 看 看 一 天 都 发 生 了 什么 ， 他 拿 出 记录 纸 ， 却 发 现 ， 信 息 都 是 零 
散 的 ， 根 本 无 法 阅读 ， 有 时 候 读 到 一 半 ， 就 断 了 ， 显 然 当时 是 因为 格子 不 够 用 了 ， 写 到 其 


他 地 方 了 ， 造 成 了 信息 记录 的 不 连续 ， 有 的 地 方 还 有 删除 线 ， 证 明 这 一 块 作废 了 ， 那 么 有 
效 的 记录 到 底 在 哪里 呢 ? 记者 方寸 大 乱 ， 数 据 虽然 都 完好 的 记录 在 纸 上 ， 但 是 他 们 都 是 不 
连续 的 、 凌 乱 的 ， 当 时 是 都 记 下 来 了 ， 但 是 事后 想 要 读 取 时 却 没 加 了 。 

磁盘 记录 也 一 样 ， 只 解决 磁盘 怎么 记录 数据 和 怎么 让 磁盘 记录 数据 ， 是 远 远 不 够 的 ， 
还 应 该 考虑 “怎么 组 织 磁盘 上 的 数据 ”。 

还 是 用 这 个 记者 的 例子 来 说 明 。 我 们 都 能 想到 ， 将 凌乱 的 记录 组 织 成 完整 的 一 个 记录 ， 
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只 需要 在 相应 的 地 方 做 一 下 标记 ， 比 如 “此 文章 下 一 段位 于 某 某 页 ， 第 几 行 ”， 就 像 路 标 
一 样 ， 一 次 一 次 的 指引 你 最 终 找 出 这 个 完整 的 数据 ， 这 个 思想 称 为 “链表 ”。 

如 果 将 这 个 链表 单独 的 做 成 一 个 记录 ， 存 放 到 固定 位 置 ， 每 次 只 要 参考 这 个 表 ， 就 能 
找 出 一 条 数据 在 磁盘 上 的 完整 分 布 情况 。 利 用 这 种 思想 做 出 来 的 文件 系统 ， 比 如 FAT 文件 
系统 ， 它 把 每 个 完整 的 数据 称 为 文件 。 文 件 可 以 在 磁盘 上 不 连续 的 存放 ， 独 的 数据 结 
构 来 描述 这 个 文件 在 磁盘 上 的 分 布 ， 这 个 数据 结构 就 是 文件 分 配 表 。File Allocate Table, 也 
就 是 FAT 的 由 来 。 或 者 用 另 一 种 思想 来 组 织 不 连续 的 数据 ， 比 如 NTFS， 它 是 直接 给 出 了 一 
个 文件 在 磁盘 上 的 具体 扇 区 ， 开 始 一 结束 ， 开 始 一 结束 ， 用 这 样 的 结构 来 描述 文件 的 分 布 
文件 系统 将 磁盘 抽象 成 了 文件 柜 ， 同 一 份 文件 可 能 存放 在 一 个 柜子 的 不 同 抽 居中 ， 利 
用 一 份 特别 的 文件 来 记录 “文件 一 对 应 抽 居 ”的 分 布 情况 ， 这 些 用 来 描述 其 他 文件 分 布 情 
况 及 其 属性 的 文件 ， 称 为 元 文件 (Metadata)。 元 文件 一 般 情况 下 要 存放 在 磁盘 的 固定 位 置 ， 
而 不 能 将 其 分 散 ， 因 为 最 终 要 有 一 个 绝对 参考 系统 。 但 是 有 些 文件 系统 ， 其 至 将 元 文件 也 
可 以 像 普通 文件 一 样 ， 在 磁盘 上 不 连续 的 分 布 。 前 面 还 说 过 一 定 要 有 一 个 绝对 参考 系统 ， 
也 就 是 固定 的 入 口 ， 所 以 这 些 特殊 的 文件 系统 ， 其 实 最 上 层 还 是 有 一 个 绝对 参考 点 的 ， 这 
个 参考 点 将 生成 元 文件 /在 磁盘 上 的 分 布 情况 记录 ， 从 而 定位 元 文件 ， 再 根据 元 文件 ， 定 位 
数据 文件 ， 这 样 一 层 一 层 的 霸 套 ， 最 终 形成 文件 系统 。 

最 终 一 句 话 ， 文 件 系统 是 对 磁盘 块 的 虚拟 、 抽 象 、 组 织 和 管理 。 用 户 只 要 访问 一 个 个 
的 “文件 ”， 就 等 于 访问 了 磁盘 扇 区 。 而 访问 文件 ， 这 个 动作 是 非常 容易 理解 的 ， 也 是 很 
简单 的 ， 用 户 不 必 了 解 这 个 文件 最 终 在 磁盘 上 是 存放 到 哪里 ， 怎 么 存放 的 ， 怎 么 访问 磁盘 
来 存放 这 个 文件 ， 这 些 统 统 都 是 由 文件 系统 和 磁盘 控制 器 驱动 程序 来 做 。 

6. 目录 虚拟 层 

不 管 是 Windows 系统 、UNIX 系统 ， 还 是 Linux 系统 ， 其 内 部 都 有 一 个 虚拟 的 目录 结 
构 。 在 Linux 中 叫做 VFS， 即 Virtual File System. 

虚拟 文件 系统 ， 顾 名 思 义 也 就 是 说 这 个 文件 系统 目录 并 不 是 真实 的 ， 而 是 虚拟 的 。 任 
何 实际 文件 系统 ， 都 可 以 挂 载 到 这 个 目录 下 ， 真 实 FS 中 的 真实 目录 ， 被 挂 载 到 这 个 虚拟 有 目 
录 下 之 后 ， 就 成 为 了 这 个 虚拟 目录 的 子 目录 。 这 样 做 的 好 处 是 增强 灵活 性 。 其 次 ， 操 作 系 
统 目 前 处 理 外 部 设备 , 一般 都 将 其 虚拟 成 一 个 虚拟 文件 的 方式 ， 比 如 一 个 卷 ， 在 Linux 中 就 
是 /dev/hda 这 种 文件 。 对 这 个 文件 进行 读 写 ， 就 等 于 直接 对 设备 进行 了 读 写 。 

存储 子 系统 的 虚拟 化 ， 可 以 在 “磁盘 一 盘 阵 控制 器 一 存储 网 络 一 主机 总 线 适 配器 一 卷 
管理 层 一 文件 系统 层 一 虚拟 目录 层 和 最 终 应 用 层 ” 各 个 环节 的 虚拟 抽象 工作 ， 使 得 最 终 应 
用 软件 ， 只 要 通过 文件 系统 访问 文件 ， 就 可 以 做 到 访问 最 底层 的 磁盘 一 样 的 效果 。 有 时 候 
还 可 以 重复 虚拟 化 。 


14.3 ” 带 内 虚拟 化 和 带 外 虚拟 化 


e ”所 谓 带 内 即 In band， 是 指控 制 信 令 和 数据 走 的 是 同一 条 路 线 。 所 谓 控制 信 令 ， 就 
是 说 用 来 控制 实际 数据 流向 和 行为 的 数据 。 典 型 的 控制 信 令 ， 比 如 IP 网 络 中 的 各 
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大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


种 IP 路 


协议 所 产生 的 数据 包 ， 它 们 利用 实际 数据 线路 进行 传输 ， 从 而 达到 各 个 


设备 之 间 


的 路 由 统一 ， 这 就 是 带 内 的 概念 。 


e 。 带 外 即 Out band， 是 指控 制 信 令 和 实际 数据 走 的 不 是 同一 条 路 ， 控 制 信 令 走 单独 


的 通路 ， 
带 内 和 带 外 ， 


这 两 个 词 来 描述 的 。 


受到 “优待 ”。 
只 是 一 种 叫 法 而 已 ， 在 电话 信 令 中 ， 带 内 和 和 带 外 是 用 “ 共 路 ”和 “ 随 路 
共 路 信 令 指 的 是 控制 信 令 和 实际 数据 走 相 同 的 线路 ， 随 路 信 令 则 指 二 


者 走 不 同 的 线路 ， 信 令 单 独 走 一 条 线路 。 随 路 又 可 以 称 作 “ 旁 路 ”， 因 为 它 是 单独 一 条 路 。 
明白 了 上 面 这 些 概念 ， 用 户 就 可 以 理解 所 谓 “ 带 内 虚拟 化 ”和 “和 带 外 虚拟 化 ”的 概 


e HARM 
间 的 ， 斩 
所 有 设备 
作为 一 个 
e 带 外 虚拟 
来 走 控 制 
制 信 令 所 
Tm" mes 
数据 。 带 


化 ， 就 是 说 进行 虚拟 化 动作 的 设备 ， 是 直接 横 插 在 发 起 者 和 目标 路 径 之 
断 了 二 者 之 间 的 通路 ， 执 行 中 介 操 作 ， 发 起 者 看 不 到 目标 ， 而 只 能 看 到 
化 的 虚拟 目标 。 所 以 在 带 内 虚拟 化 方式 下 ， 数 据 流 一 定 会 经 过 路 径 上 的 
， 即 所 有 设备 是 串联 在 同一 条 路 径 上 的 ， 虚 拟 化 设备 插入 这 条 路 径 中 ， 
“ 泵 ”， 经 过 它 这 的 时 候 就 被 虚拟 化 了 。 
化 ， 则 是 在 这 个 路 径 旁 另 起 一 条 路 径 ， 也 就 是 所 谓 的 旁 路 。 用 这 条 路 径 
信号 ， 而 实际 数据 还 是 由 发 起 者 直接 走向 目标 。 但 是 这 些 数据 流 是 受 控 
控制 的 ， 也 就 是 发 起 者 必须 先 “ 咨 询 ” 旁 路 上 的 虚拟 化 设备 ， 经 过 “ 提 
“授权 ”之 后 ， 才 可 以 根据 虚拟 化 设备 发 来 的 “指示 ”直接 向 目标 请 求 
外 虚拟 化 方式 中 ， 数 据 通 路 和 信和 令 通 路 是 并 联 的 。 


带 内 虚拟 化 的 例子 非常 多 ， 目 前 的 虚拟 化 引擎 几乎 都 是 带 内 虚拟 化 。IBM 的 SVC(San 


Volume Controller 


引擎 。 


). Netapp 的 V-series、HDS 公司 的 USP 系列 等 ， 它 们 都 是 带 内 虚拟 化 


1. 带 外 虚拟 化 系统 SanFS 
带 外 虚拟 化 的 一 个 典型 的 例子 , 是 IBM 公司 的 SanFS 系统 。 如 图 14.2 显示 了 SanFS 的 


基本 架构 。 


SanFS 其 实 根本 没有 什么 高 深 的 地 方 ， 说 白 了 ，SanFS 就 是 一 个 网 络 上 的 文件 系统 ， 
就 是 说 ， 常 规 的 文件 系统 都 是 运行 在 主机 服务 器 上 的 ， 而 SanFS 将 它 搬出 到 了 网 络 上 ， 


| [ME 


mac c Sansi 
主机 主机 运行 SanFS 文 件 系统 地 加 
SAN ERI 
wann anen | ERRA 


B2 IBM 公司 的 SanFS 架构 示意 图 


E 


一 台 专门 的 设备 来 处 理 文件 系统 逻辑 。 
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然而 ， 这 个 “网 络 上 的 文件 系统 ” 却 绝对 不 是 
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“网 络 文件 系统 ”。 网 络 文件 系统 是 典 


型 的 带 内 虚拟 化 方式 ， 因 为 网 络 文件 系统 对 上 层 屏蔽 了 底层 卷 ， 只 给 上 层 提供 一 个 目录 访 
目录 。 而 SanFS 架构 中 ， 上 层 既 能 


问 接口 ， 上 层 看 不 到 网 络 文件 系统 底层 的 卷 ， 只 能 看 到 


看 到 文件 系统 目录 ， 又 能 看 到 底 


层 卷 ([LUN)， 如 图 14.3 所 示 。 
ENFER 
| 
主机 服务 器 主机 服务 器 | FARIAS 
Hf iui 的 内 存 中 所 运行 的 | 六 端 以 大 网 交换 机 | 
应 用 程序 
[X EE Ed 文件 系统 | 
底层 郑 底层 卷 | 只 承载 元 歼 据 
SAN 交 换 机 | 
REPES 


图 143 中 ， 左 边 的 服务 器 


通信 路 径 不 再 是 内 存 ， 而 是 :以 大 网 了 。 


统 的 通信 都 要 被 重 定向 到 外 部 ， 


实例 1 


B5 SanFS 架构 示意 图 

是 一 台 普通 的 服务 器 ， 右 边 是 一 台 使 用 SanFS 文件 系统 的 服 
务 器 。 右 边 的 服务 器 上 的 文件 系统 已 经 被 搬 到 了 外 面 ， 即 运行 在 一 台 SanFS 控制 器 上 ， 这 
个 控制 器 与 服务 器 都 接 入 一 台 以 太 网 交换 机 。 当 虚拟 目录 层 需要 与 文件 系统 层 通 信 的 时 候 ， 


由 于 文件 系统 已 经 被 搬出 主机 ， 所 以 任何 与 文件 系 


并 且 需 要 用 特定 的 格式 ， 将 请 求 通过 以 太 网 发 送 到 SanFS 
控制 器 ,以 及 从 控制 器 接受 相应 的 回应 ,所 以 在 使 用 SanFS 的 服务 器 主机 上 , 必须 安装 SanFS 
管理 软件 (或 者 叫做 SanFS 代理 )。 


` 面 用 几 个 实例 来 说 明 SanFS 是 如 何 作用 的 。 


服务 器 运行 Window 2003 操作 系统 ， 使 用 SanFS 作为 文件 系统 的 卷 的 盘 符 为 “S” 盘 。 


在 Windows 中 双击 盘 符 S， 此 时 VFS 虚拟 目录 层 便 会 发 起 与 SanFS 控制 器 的 通信 ， 因 为 需 
要 获取 盘 符 S 根 目 录 下 的 文件 和 目录 列表 。 所 以 VFS 调用 SanFS 代理 程序 ， 通 过 以 太 网 络 
向 SanFS 控制 器 发 送 请 求 ， 请 求 S 根 目 录 的 文件 列表 ，SanFS 控制 器 收 到 请 求 之 后 ， 将 列表 
通过 以 太 网 发 送 给 SanFS 代理 ， 代 理 再 传递 给 VFS， 随 即 就 可 以 在 窗口 中 看 到 文件 和 目录 


列表 了 。 
实例 2 


某 时 刻 ， 某 应 用 程序 要 向 S 盘 根 目录 下 写 入 一 个 大 小 为 1MB 的 文件 。VFS 收 到 这 个 请 


求 之 后 ， 立即 向 SanFS 控制 器 发 送 请 求 ，SanFS 控制 器 收 到 请 求 之 后 ， 计 算出 应 该 使 用 卷 上 


的 哪些 空闲 块 ， 将 这 些 空 闲 块 的 LBA 号 码 列 表 以 及 一 些 ] 


务 器 。 服 务 器 上 的 SanFS 收 到 这 些 信息 后 ， 便 调 


务 器 的 内 存 中 直接 向 下 写 入 对 应 卷 的 LBA 地 址 上 。 


SanFS 系统 是 一 个 典型 的 带 外 虚拟 化 系统 , 服务 器 主机 虽然 可 以 看 到 底层 卷 , 但 是 管理 


用 操作 系统 相关 模块 ， 将 应 用 的 数据 从 月 


其 他 必要 信息 通过 以 太 网 传送 到 月 


X RI 


大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


这 个 卷 的 文件 系统 ， 却 没有 运行 在 主机 上 ， 而 是 运行 在 主机 之 外 。 主 机 与 这 个 文件 系统 之 
间 通 过 前 端 以 太 网 通信 ， 收 到 文件 系统 的 指示 之 后 ， 主 机 才 按 照 指示 将 数据 直接 写 入 卷 。 


因 有 三 个 。 


o ”将 文件 系统 逻辑 从 主机 中 剥离 出 来 ， 降 低 主机 的 负担 。 
o ”既然 将 文件 系统 从 主机 剥离 出 来 ， 为 何不 干脆 做 成 NAS 呢 ? NAS 同样 也 是 将 文件 


系统 搬移 出 主机 。 答 案 是 因为 向 NAS 传输 数据 ， 走 的 是 以 太 网 ， 速 


SanFS 究竟 有 何 意义 呢 ? SanFS 是 不 是 有 点 多 此 一 举 呢 ? 放 着 主机 内 存 这 么 好 的 风水 宝 
地 不 用 ， 却 自己 跑 出 去 单独 运行 ， 和 别人 通信 还 得 忍受 以 太 网 的 低速 度 (相对 
是 何苦 呢 ? 煞费苦心 的 SanFS 当然 有 自己 的 算盘 ， 这 么 做 的 原 


内 存 来 说 )， 这 


度 相 对 FC SAN 


要 慢 。 所 以 SanFS 的 设计 是 只 有 元 数据 的 数据 流 走 以 太 网 ， 实 际 数据 依然 由 主机 


优势 。 


自行 通过 SAN 网 络 写 入 盘 阵 等 存储 设备 。 这 样 就 加 快 了 数据 传输 速度 ， 比 NAS 有 


e JERK SanFS 一 个 最 大 的 特点 ， 就 是 支持 多 台 主 机 共享 同一 个 卷 ， 即 同一 时 刻 可 以 


以 让 所 有 主机 方便 地 与 它 连接 。 
2. SanFS 与 NAS 的 异同 
SanFS 与 网 络 文件 系统 究竟 有 何不 同 呢 ， 如 


图 14.4 所 示 。 


由 多 台 主 机 共同 读 写 (注意 是 读 写 ) 同 一 个 SanFS 卷 。 这 也 是 SanFS 最 大 的 卖点 。 
共享 同一 个 LUN 的 所 有 主机 , 都 与 SanFS 控制 器 通信 以 获得 访问 权限 , 所 以 SanFS 
干脆 就 自己 单独 占用 一 台 专 用 设备 ， 放 在 网 络 上 ， 也 就 是 SanFS 控制 器 ， 这 样 可 


我 只 能 看 到 RTAKEH 
REPRE 各 TRA, RA 
c TI 个 /sanfshmp 六 
= HEBA, MI 
e ERU 
当 LBA 写 入 数据 
+ 
ch 23 URREA 
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scere [|| nos gw | | 
" Re ues. i XE 
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i aT 
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3. ÉILBA1024 Dueb ced 
到 LBA2048 房 区 Fn TN 
SS egt 
E Xn HE 
' 
LUN LUN 
带 内 虚拟 化 带 外 虚拟 化 


图 14.4 SanFS 与 NAS 的 异同 
显然 ，NAS( 网 络 文件 系统 ) 与 SanFS 是 截然 不 同 的 。 主 机 向 NAS 写 入 数据 ， 其 实 要 经 


而 且 是 通过 FC SAN， 而 不 是 相对 慢 速 的 以 太 网 。 
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历 两 次 写 的 过 程 ， 第 一 次 写 是 主机 将 数据 通过 以 太 网 发 送 给 NAS 的 时 候 ， 第 二 次 写 是 NAS 
将 收 到 的 数据 写 入 自己 的 硬盘 (本 地 磁盘 或 者 SAN 上 的 LUN 卷 ]。 而 SanFS 只 写 入 一 次 数据 ， 
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以 太 网 在 传统 上 是 用 来 承载 IP 的 , 但 是 有 一 些 技术 是 将 以 太 网 承载 到 IP 之 上 的 ,比如 


VPLS. VPLS 属于 一 种 极端 变态 的 协议 杂交 方式 。 它 嵌 套 了 多 次 ， 也 轮回 了 多 次 。 


VPLS 可 以 说 是 对 以 太 网 VLAN 技术 的 一 种 上 层 扩展 。 传 统 VLAN 使 用 VLAN 标签 来 


分 不 同 的 域 ，VPLS 则 可 以 直接 通过 用 不 同 的 IP 来 封装 以 太 网 头 来 区 分 各 个 以 太 网 域 。 


Xl 


这 个 技术 也 从 一 个 侧面 表明 了 TCP/IP 在 当今 网 络 通信 和 领域 所 不 可 动摇 的 绝对 地 位 。 


14.4 ” 硬 网 络 与 软 网 络 


1. 硬件 网 络 设备 


所 谓 的 硬件 网 络 设备 ， 其 功能 终究 还 是 靠 软件 来 实现 的 。 很 多 网 络 硬件 设备 ， 尤 其 是 


路 由 设备 ， 本 质 上 就 是 一 台 PC 或 者 PC Server。 其 上 运行 着 专门 处 理 网 络 数据 包 的 程 
就 这 样 ， 若 干 底层 网 络 设备 互相 连接 ， 组 成 了 整个 基础 网 络 ， 也 就 是 硬件 网 络 环境 。 


在 硬件 网 络 环境 的 基础 上 ， 若 干 PC 接 入 硬件 网 络 ， 实 现 相 互通 信 。 也 就 是 说 ， 用 一 
分 PC 充当 网 络 硬件 设备 , 其 他 PC 利用 这 些 充 当 网 络 设备 的 PC 实现 通信 。 这 就 是 一 种 髓 


的 表现 ， 也 就 是 “网 中 有 网 ”。 
2. 软件 网 络 程序 
Message Queue 和 Message Broker 在 硬件 网 络 设备 的 基础 上 ， 模 拟 出 一 个 纯 软 件 

络 转发 引擎 。 这 就 是 一 种 轮回 的 表现 。 


的 网 


e  MQ(Message Queue) 是 一 种 消息 转发 软件 引擎 。 这 个 引擎 运行 在 主机 操作 系统 之 
上 。 其 功能 就 是 充当 一 个 消息 转发 器 。 客 户 端 通过 TCP/IP 与 这 个 转发 器 相连 ， 将 


消息 传送 到 这 个 转发 器 上 ， 然 后 转发 器 根据 策略 ， 将 消息 转发 到 其 他 客户 员 


这 种 消息 转发 器 , 也 就 类 似 于 网 络 交换 机 。 只 不 过 MQ 的 链 路 层 由 TCP/IP 来 充当 。 
e MB(Message Broker) 是 一 种 应 用 逻辑 转发 引擎 。 这 个 引擎 虽然 也 是 用 来 转发 消息 
的 ， 但 是 它 不 仅仅 是 底层 转发 ， 还 能 做 到 应 用 层次 的 转发 。 这 类 似 于 邮件 服务 器 ， 


只 不 过 它 可 以 转发 各 种 格式 和 方式 的 数据 包 。 
14.5 用 多 台独 立 的 计算 机 模拟 成 一 台 虚 拟 计算 机 


1. HPC 环境 


点 组 成 线 ， 线 组 成 面 ， 面 组 成 体 ， 体 与 体 之 间 组 成 网 ， 然 后 就 是 进化 。 同 样 ，HPC 环 


境 也 是 这 种 模式 。 在 一 个 典型 的 HPC 环境 中 ， 包 含 众多 的 计算 机 ， 这 些 计 算 机 各 有 分 工 
总 体 来 说 ，HPC 环境 中 的 计算 机 可 以 分 为 两 大 类 ， 一 种 是 专门 用 来 计算 数据 的 ， 为 CPU 
集运 算 ， 另 一 种 是 专门 用 于 存储 计算 过 程 中 ， 所 需要 提取 或 者 存放 的 数据 的 ， 为 10 密集 运 
硬件 资源 ， 有 些 HPC 环境 


算 。 前 者 称 为 计算 节点 ， 后 者 称 为 存储 节点 。 而 为 了 最 大 和 


[OE 


8 n 


可 以 将 一 个 HPC 环境 中 的 所 有 计算 节点 ， 看 作 一 台大 的 虚拟 计算 机 的 CPU 和 内 存 ， 而 
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大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


将 所 有 存储 节点 看 作 虚 拟 计算 机 的 硬盘 。 虚 拟 计算 机 的 CPU 和 内 存 (计算 节点 )， 通 过 某 种 
连接 链 路 向 虚拟 计算 机 的 硬盘 (存储 节点 ] 读 写 数据 ， 从 而 计算 出 结果 。 对 于 一 台 单 独 的 物理 
计算 机 来 说 ，CPU 内 存 与 存储 设备 之 间 的 连接 为 高 速 10 总 线 ， 比 如 PCIE. 但 是 对 于 由 多 台 
独立 节点 组 成 的 HPC 系统 来 说 ， 虚 拟 CPU 与 虚拟 存储 设备 之 间 的 连 线 就 不 可 能 是 内 部 10 
总 线 了 ， 而 是 一 种 外 部 的 高 速 网 络 传输 方式 。 有 些 HPC 利用 Infiniband 网 络 作为 计算 节点 
与 存储 节点 之 间 的 连接 方式 ， 有 些 则 干脆 使 用 以 太 网 。 前 者 一 般 用 于 10 密集 型 的 运算 ， 后 
者 一 般 用 于 CPU 密集 型 运算 ， 也 就 是 说 ， 运 算 过 程 中 需要 读 写 的 数据 不 多 。 

2. 典型 的 Web+APP+DB 架构 

这 种 架构 是 一 种 典型 的 IT 架构。 客户 端 通过 Web 服务 器 获取 一 个 图 形 化 显示 网 页 , 应 
用 逻辑 由 APP(Application) 服 务 器 处 理 ， 并 将 结果 通过 Web 服务 器 显示 到 客户 端的 网 页 上 ， 
APP 服务 器 需要 的 数据 则 通过 访问 数据 库 服务 器 来 获得 。 

也 可 以 将 Web 服务 器 看 作 一 台 显 示 终 端 , 将 APP 服务 器 看 作 CPU 和 内 存 , 将 DB 服务 
器 看 作 硬 盘 。 这 样 ， 一 个 由 Web+APP+DB 服务 器 所 组 成 的 虚拟 计算 机 便 诞生 了 。 


14.6 ”用 一 台独 立 的 计算 机 模拟 出 多 台 虚 拟 计算 机 


1. Vmware 虚拟 机 软件 

Vmware 通过 模拟 一 套 硬件 系统 ， 将 程序 对 这 个 硬件 系统 CPU 发 送 的 指令 经 过 一 定 的 
处 理 之 后 ， 并 加 以 虚拟 都 传 到 物理 CPU 上 执行 。 利 用 这 种 方式 ， 可 以 在 一 台 物 理 计算 机 上 
虚拟 出 多 个 虚拟 机 。 

目前 Windows Server 2008 操作 系统 已 经 白带 了 HyperV 虚拟 化 引擎 。 类 似 Vmware 
的 ESX。 目 前 很 多 操作 系统 都 集成 了 Native 的 虚拟 化 引擎 。 

2. 世界 本 身 就 是 一 个 轮回 该 套 的 虚拟 化 系统 
\ 但 在 计算 机 领域 中 有 虚拟 化 ， 在 其 他 学 科 中 同样 有 虚拟 化 。 化 学 领域 中 ， 科 学 家 把 
观察 到 的 现象 和 计算 出 来 的 公式 ， 虚 拟 化 成 原子 和 分 子 。 
总 之 ， 一 切 都 是 虚拟 化 的 结果 ， 我 们 观察 到 的 世界 其 实 就 是 我 们 利用 基本 数学 公式 虚 
拟 出 来 的 。 人 们 首先 在 大 脑 中 演绎 出 数学 ， 然 后 虚拟 化 出 了 物理 学 ， 然 后 再 用 数学 和 物理 
学 ， 虚 拟 化 出 化 学 等 其 他 各 种 学 科 。 这 就 像 用 汇编 语言 来 抽象 数字 电路 逻辑 ， 再 用 高 级 语 
言 来 抽象 汇编 语言 ， 然 后 将 现实 中 的 逻辑 用 计算 机 高 级 语言 表达 出 来 ， 让 计算 机 来 模拟 出 
现实 逻辑 。 


E 
7 
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14.7 用 磁盘 阵列 来 虚拟 磁带 库 


VTL, BẸ Virtual Tape Library， 虚 拟 磁带 库 。 传 统 的 物理 磁带 库 为 全 机 械 操作 ， 比 如 机 
械 手 、 驱 动 器 、 磁 带 等 。 其 速度 相对 磁盘 来 说 要 慢 很 多 ， 如 果 需 要 备份 的 数据 量 非常 大 ， 
而 备份 窗口 又 很 小 ， 那 么 只 能 通过 提高 磁带 库 的 速度 来 解决 。 但 是 要 提高 磁带 库 的 速度 ， 
只 能 同时 用 多 个 驱动 器 同时 操作 ， 需 要 成 本 高 ， 不 方便 。 虚 拟 磁带 库 的 出 现 为 的 就 是 解决 
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上 述 这 些 问 题 。VTL 使 用 磁盘 来 存储 数据 而 不 是 磁带 ， 并 虚拟 出 机 械 手 、 磁 带 驱 动 器 、 磁 
带 这 三 样 在 物理 上 都 不 存在 的 东西 。 在 备份 软件 等 使 用 磁带 库 的 应 用 程序 ， 不 会 发 现 物理 
设备 到 底 是 盘 阵 还 是 真实 的 磁带 库 。 而 虚拟 化 之 后 ， 前 端的 程序 接口 不 变 ， 后 端的 速度 和 
灵活 性 却 大 大 增加 了 。 

图 14.5 是 一 台 物 理 磁 带 库 的 正视 图 。 图 14.6 显示 了 仓 门 打开 后 其 内 部 构件 示意 图 ， 可 
以 看 到 一 根 竖 直 的 柱子 ， 这 个 柱子 就 是 机 械 手 的 滑 轨 。 机 械 手 可 以 沿 着 柱子 上 下 滑动 并 且 
可 以 左右 转动 ， 以 抓 取 右 侧 磁带 槽 中 的 磁带 。 在 图 14.8 以 及 第 16 章 的 图 16.7 中 可 以 看 到 
另 一 种 设计 的 机 械 手 和 驱动 器 。 图 14.7 所 示 是 物理 带 库 的 两 个 驱动 器 和 电源 后 视图 。 


\ 
[e | | 磁带 村 
Bs 物理 磁带 库 的 内 视图 


14.7 物理 磁带 库 后 视图 (驱动 器 和 电源 ) 图 14.8_ 另 一 种 设计 方式 的 磁带 库 机 械 手 


14.7.1 NetApp VTL700 配置 使 用 实例 


比如 有 NetApp VTL700 系列 虚拟 磁带 库 一 台 , 机 头 连接 了 两 个 扩展 柜 。 共 28 块 500GB 
的 SATA 磁盘 。 

1. 第 一 步 : 创建 RAID 组 ， 为 虚拟 磁带 创建 底层 存储 空间 

磁盘 阵列 必须 做 RAID。 这 是 任何 情况 下 都 要 保证 的 。RAID 不 仅仅 可 以 提高 速度 ， 更 


> 


重要 的 是 为 了 保护 数据 ， 因 为 任何 一 块 硬盘 损坏 , 如果 没有 RAD, 都 会 造成 数据 丢失 。VTL 
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使 用 的 磁盘 阵列 也 不 例外 。 
11 VTL700 可 以 利用 Web 界面 来 管理 ， 管 理 主 界面 如 图 14.9 所 示 。 


图 14.9 VTL700 管理 主 界面 
2] 查看 当前 系统 的 虚拟 磁带 容量 等 信息 ， 如 图 14.10 所 示 。 由 于 还 没有 配置 完成 ， 
所 以 图 14.10 中 没有 给 出 任何 虚拟 之 后 的 容量 等 信息 (RAID 组 和 虚拟 磁带 总 容量 


都 为 0.00GB), 


1440 ”系统 配置 容量 信息 


3】 从 页 面 左 侧 栏 中 选择 RAID Groups 标签 ， 右 侧 会 显示 出 当前 系统 中 所 配置 的 RAD 
组 ， 如 图 14.11 所 示 。 由 于 当前 还 没有 配置 任何 RAID 组 ， 所 以 两 台 扩 展柜 中 的 所 
有 磁盘 均 显 示 为 灰色 (空闲 状态 )， 蓝 色 的 磁盘 为 Spare it. 

4] 单 击 图 14.11 上 方 的 Create Raid Group ， 出 现 如 图 14.12 所 示 的 页 面 。 

5] 单 击 图 14.12 中 的 Automatically Create RAID Group 按钮 ， 让 系统 自动 创建 RAID 
组 。 出 现 如 图 14.13 所 示 的 窗口 ， 提 示 用 户 创建 RAID 组 的 规则 。 

61 单 击 Apply 按钮 出 现 如 图 14.14 所 示 的 页 面 ， 可 以 看 到 系统 已 经 创建 好 了 一 系列 
的 RAID 组 ， 且 每 个 RAID 组 用 不 同 颜色 表示 。 
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[2l 14.12 ”创建 RAID 组 页 面 


ausi 


CONFIRM 


Warning: All available disks will be formatted 

10 create RAID group and hot spare disks. 

The RAID Groups are created according to the following. 
mulos. 

1. Disks of equal sizə are used. 

2. A RAID Group Consists of 5.7 disks. 

3. A hot spare disk is added every 42nd disk. 

4. If possible disks are allocated across shelves. 


B8 .13 ”创建 RAID 组 规则 


t 3271 


大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


H1414 系统 自动 创建 的 6 个 RAID 组 


7] 单 击 Drop RAID Group 标签 ,进入 删除 RAID 组 页 面 ,可 以 删除 已 经 创建 好 的 RAID 
组 ， 如 图 14.15 所 示 。 


B 14.15 删除 RAID 组 页 面 


8] 单 击 Drop， 删 除 对 应 的 RAID 组 。 删 除 之 后 也 可 以 再 次 手动 或 者 自动 创建 RAD 
组 。 图 14.16 所 示 为 手动 创建 的 7 个 RAID 组 。 


416 手动 创建 的 7 个 RAID 组 
9] 回 到 Monitor 页 面 ， 查 看 系统 当前 的 配置 容量 信息 ，RAID Group 栏目 中 已 经 显示 


出 了 系统 当前 的 可 用 磁盘 容量 ， 如 图 14.17 所 示 。 
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图 14.17_ RAID 组 配置 完 后 的 系统 容量 信息 


2. 第 二 步 : 创建 虚拟 磁带 库 和 虚拟 磁带 
创建 完 RAID 组 之 后 ， 就 为 系统 提供 了 基本 的 存储 空间 。 在 这 个 存储 空间 之 上 ， 还 需要 
创建 一 台 或 者 多 台 虚 拟 带 库 ， 然 后 创建 虚拟 磁带 。 

11 创建 虚拟 磁带 库 。 如 图 14.18 所 示 创 建 一 台 名 为 libl 的 虚拟 带 库 ， 带 库 的 厂家 信 
息 为 NetApp。 虚 拟 磁 带 驱动 器 类 型 为 IBM LTO1， 这 个 类 型 必须 对 应 一 款 物理 磁 
带 驱 动 器 ， 下 拉 列 表 框 中 有 多 种 支持 的 物理 驱动 器 可 选 。Slot Count 即 磁带 槽 位 ， 
这 里 定 为 8。Drive Count 即 驱 动 器 数量 ， 这 里 定 为 2。Assigned to Port 表示 将 这 
个 虚拟 磁带 库 在 哪个 前 端 端口 “提交 ”出 去 ， 即 主机 端 可 以 从 VTL 上 的 哪个 前 端 
端口 识别 到 这 台 虚 拟 磁 带 库 。Fully Loaded with Virtual Tapes 表示 是 否 自动 创建 对 
应 的 虚拟 磁带 并 插 满 磁带 槽 (磁带 槽 和 磁带 都 是 虚拟 的 )。Start Tape Label 表示 起 
始 标 签名 称 。 物 理 磁带 库 中 ， 每 盘 磁 带 都 有 各 自 的 标签 ， 机 械 手 通过 这 些 标签 来 
识别 每 一 盘 磁 带 ， 虽 然 VTL 不 需要 用 标签 来 识别 每 个 虚拟 磁带 ， 但 是 备份 软件 等 
程序 需要 知道 这 些 标签 ， 所 以 VTL 还 是 要 给 每 个 虚拟 磁带 分 配 标签 , 这 里 用 “L1” 
来 起 始 ， 这 样 ， 第 二 盘 虚 拟 磁带 系统 就 会 自动 为 其 分 配 “L2” 的 标签 ， 依 此 类 推 。 


B 14.18_ 创 建 虚拟 磁带 库 
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2] 


3] 


4] 


t 3301 


单 击 Apply 按钮 之 后 ， 一 台 虚 拟 磁带 库 就 创建 完 并 可 以 使 用 了 。 此 外 ， 还 可 以 创 
建 更 多 的 虚拟 磁带 ， 如 图 14.19 所 示 。 进 入 左 侧 栏 Virtual Tapes 标签 ， 右 侧 页 中 
可 以 选择 新 磁带 归属 于 哪个 虚拟 带 库 。 这 里 选择 刚刚 创建 的 “lib1”， 然 后 起 始 标 
签 设 为 “M1”， 数 量 为 8 Hp. "Rudi Apply 按钮 。 这 样 就 向 “lib1” 这 台 虚 拟 带 库 
中 增加 了 8 盘 磁 带 ， 加 上 原 有 的 一 共 16 ft. 


v 


Br. 增加 虚拟 磁带 

单 击 左 侧 栏 中 的 Virtual Libraries 标签 ， 右 侧 会 出 现 一 张 虚拟 磁带 库 拓扑 图 。 如 
图 14.20 所 示 ， 右 侧 机 柜 中 有 8 个 磁带 槽 和 2 个 驱动 器 ， 与 创建 带 库 时 的 选项 一 

-对 应 。 左 边 的 推 车 上 还 有 8 盘 磁 带 ， 这 是 刚才 追加 的 8 级 磁带 ， 而 虚拟 带 库 中 
的 磁带 模 放 不 开 ， 所 以 就 放 到 了 虚拟 推 车 上 。 推 车 上 方 是 一 个 存储 箱 ， 可 以 用 鼠 
标 把 任意 一 盘 磁 带 拖 动 到 推 车 、 磁 带 模 或 者 驱动 器 中 。 如 果 拖 动 到 存储 箱 中 ， 则 
这 盘 虚 拟 磁 带 便 被 删除 了 (如 图 14.21 所 示 )。 
返回 到 Monitor 页 面 中 可 以 看 到 当前 系统 中 的 虚拟 带 库 信 息 ， 如 图 14.22 所 示 。 


14.20 ”当前 虚拟 磁带 库 的 示意 图 页 面 
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图 14.22 ”当前 系统 的 虚拟 带 库 信息 


5】 创建 第 二 台 虚 拟 带 库 。 再 次 创建 一 台 名 为 “lib2” 的 虚拟 带 库 。 这 里 选择 驱动 器 类 
型 为 “HP LTO1” , 16 槽 位 ，4 驱动 器 ， 如 图 14.23 所 示 。 图 14.24 显示 了 “lib2” 
的 拓扑 图 ， 可 以 和 “lib1” 的 图 对 比 一 下 。 

61 单 击 左 侧 栏 Virtual Tapes 标签 ， 右 侧 页 面 中 可 以 查看 虚拟 磁带 的 信息 、 修 改 虚拟 
磁带 的 属性 、 在 多 台 虚 拟 带 库 中 移动 磁带 、 删 除 虚拟 磁带 。 如 图 14.25 一 图 14.28 
所 示 。 
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4 Create Virtual Library [oro] 


Available Capacity: 71839 GB. 


m ri 


图 14.24 “lib2” 虚 拟 带 库 拓扑 图 
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B 14.26 _ 修改 虚拟 磁带 的 读 写 属性 


B 14.28 ”删除 虚拟 磁带 


7] 返回 Monitor 查看 页 面 信息 ， 如 图 14.29 所 示 ， 出 现 另 一 台 虚拟 带 库 。 


8] 手动 将 磁带 放 入 驱动 器 。 如 图 14.30 所 示 ， 可 以 在 拓扑 图 中 拖 动 任何 一 盘 磁 带 进 
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入 驱动 器 。 这 个 动作 就 好 比 在 物理 带 库 中 ， 由 机 械 手 将 磁带 从 磁带 槽 中 抓 出 ， 并 
推 入 磁带 驱动 器 。 当 然 ， 备 份 软件 可 以 发 送 指令 让 带 库 自 动 做 这 个 动作 ， 我 们 当 
然 也 可 以 手动 做 这 个 动作 。 磁 带 放 入 驱动 器 之 后 , Monitor 页 面 中 会 显示 出 当前 带 
库 的 驱动 器 中 所 包含 的 磁带 ， 如 图 14.31 所 示 。 


m " 9. 


14.31 Monitor 页 面 中 显示 的 驱动 器 状态 


3. 第 三 步 : 在 客户 端 使 用 虚拟 磁带 库 
客户 端 对 VTL 的 使 用 与 使 用 一 台 纯 物理 磁带 库 没 有 任何 区 别 。 我 们 用 一 台 NetApp 的 
FAS3050 磁盘 阵列 来 识别 这 人 台 VTL， 看 看 效果 。 在 FAS3050 命令 行 中 输入 “sysconfig -a" 
来 查看 当前 系统 中 的 所 有 设备 ,可 以 看 到 在 FC 通道 “0c” 上 已 经 识别 到 了 2 个 IBM 的 驱动 
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器 和 4 个 HP 的 驱动 器 , 这 和 VTL700 上 的 配置 完全 一 样 ， 如 图 14.32 所 示 。 输 入 “storage 
show tape” 命 令 可 以 查看 更 详细 的 磁带 驱动 器 信息 ， 如 图 14.33 所 示 。 输入 “storage show 


mc” 命 令 可 以 查看 识 
入 


Slor o: FC Most apaprer Uc LOLOQIC 2454 rev. 2, L 
Firmware rev: 4.0.24 
Host Loop F F 
FC Mode Nami 5:002:098000:012e83 
SEP Vendor: FINISAR CORP. 
SFP Part Number: ^ FTLFBS24P20NV 
SFP Seria] Nunber: PESOFSL 
SEP Capabilities: 1, 2 or 4 Gbit 
Link Dara Rate: — 4'GhiT 


G: Medium Changer: NETAPP VTL 


OL3: Medium Changer: NETAPP VTL 
GLL: Tape: 16M ` ULTRIUM-TOL 

OL2: Tape: IBM — LLTRIUM-TOL 

OLá; Tage: HP Vitr jum 1-5<sT 
QL$: Tape: HP UItriun 1-5czr 
QL6: Tape: HP UItr iun I-scsr 
QLT: Tage: Hp Inrrlum I-scsI 


l/O base 0x0, size DxO 


6091 


memory mapped 1/0 base Cxc1300000, 


[43 客户 端 所 识别 到 的 磁带 设备 


Ort, cu) 


size Ox4000 


别 到 的 所 有 磁带 ， 如 图 14. 


fas304Dc11-cgy storage show switch 


NO Switches Found. 


35 所 示 。 


fés3O4Dcli-cn» strage show tape 


Tape priv 


huner : 


Alias MeneCs]: 
Device stati 


Tape prive: 
MET 

Ser 121 unter: 
Sorld wide nane: 
Aias anecs 
Sevice State: 


Tape orive: 
Description: 
Serial Nuncer: 


Tape prive: 
Description: 
Série! Nunber : 
world wide Name 
alas weneC) 
Device state: 


ape priva: 
put 
Soria] numbar: 
Serio wide nane: 
Sas Tanais 
Em Savice State 
Tape prive: 
Safer ption: 
Ser $2] puncer: 
orla wide Name: 
Aias None): 
Sevice Stati 


fas304Dc11-cny 


as3otgcl1-cnvy sysconfig -t 
pe, drive (Qs. Du) ag 
heirs devize, 

no rewind devici 

RE 
dv 和 

Hm 


I Peri device, 


av 
To revind dev 


Tape orive Coe. QD am 
vira. 


Paana devie, 


rowing devico, 


rtve Qc. Du) m 
renina device, 


Oe 
Paina devie, 


rewind devi 
Nerei d 


Foring devi 


Tips ive (oe Qu ee 
Ti ree dasi 


raind devize, 
ha ree d 


p 


Ferid device, 


Tape rive CocoL6) co 
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Vrnoad/relosd device, 


I asd eread device, Fermat 


FE rowing device, 
> COP eed device. 


Te reri) device, 
IOURDMUCHY Ad Geisce, 


HE 
I 23588153 devico, Format ^ 


re eedee, 


TO rows devica, 
ROA /Dessd device, 
DAIS VEA delen, 


Tire savice, 
OOM eid dotco, format 15: 


Vrioad/Ce lod detice, 


Vrload/ceload device, 


TE rows desica, 
Vieid/celsid Sevice, 


herrerne sevice, 
I Vmas/celoid device, format 43: 


on 
ULTRZUM-TOI 

Pelrooocy FRI 2a bs 

wani [5 00a :008200:01aeb1 ]L1 


Sto 
Avaratile 


cc 2 
IER. ULTRILN-TOL 
esref7a3fS130980521b4 
BERG Sca ionis caasa L2 
E: 

available 


ggo 
Ultrium i-scsr 
aas ica BOSE T04 
0a :098200:01aeb1 ]L4 


available 


oc. Ds . 
E Ultrium i-scsr 
1cf378223 1822098082104 
vi^ 068 098200: 01aebt ]u* 


55 
avallabe 


oc. 
E lcrtum 1-scsr 
Tef37c82357324 008082104 
wan [5 004 068200 :C1ag2].6 
su 

available 


epar 
Ultrium 1-scsr 

ME] 

ss: 0021088200:CL 3k] 7 

5 

available 


息 


mE 
Pormat ds: Lyo Formar 100 
format 1 Format 100 
Vcn, format 4 Format iod 
1 Format 100 
， E Format 160 
1 
E 
i 
formas 1 Format 200 
E EI 
orTgruncro 
forma de: Lro Formar 100 
pe Format 100 
format 1 Format 100 
formaz 3 Format 100 
fummi iym 100 
format 4 Format i0 
ermat i Farmit ien 
format 4 Format 100 
EI Tiens don 
formar 1 Format 200 
farmat 45: LTO Farmar 360 
Format 200 
nertum 1-scsr 
Format 100 
ormat doy 
CEN Format i00 
farane ji io Format 200 
form Format 100 
fermat iii ETS Format Foo 
format 15: LTO Format 100 
formaz d Format 100 
ELI Farmit 109 
format is: LTO Format 200 
fermat im Format 300 
LTO Format 200 
intetun 1-scs 
Format js: LTO format 100 
EIE 
format 15: L19 Format 100 
fermat ii LTO Format 200 
ice, format du 
format i5: 
farmat iii CTO annat 100 
formar 1 Format 100 
iex Format io 
fem d Format 200 
format 3 Eu 


Format 200 


VOTE. E T io our 100 
Fasioicli-ems storage show mc Eier NNEECEU ES ECE 
madiun changer — 06.0 uso tee Eran ji oon in 
Description: NETAPP — VTL rewind device, " format js: LTS Format 200 
Serie uber:  Des2g2723FS1a0980921b4 DOCE EET! 
World wide Name: —— WwV[5:004:098200:024eb1] siaaa Aa 
altas NameQs): mco. Tape arive Coc.g7] tp — Ulepium 1-scsr 
pE A os age mew e e et i 
i 
Medium changer: oc. oL3 Eu mom ee formit di P FSE ES 
Dose pe hn NEDER vre Doc EPI E. 
Seria Mber:  1cF366483¥ B2a0980921b4 Ee E E 
World wide Name: Wal S00a, 008200 es3es Ls mon da Eu DIE IS 
atas NaneQs) mel. Dorel osd device, format 15: LIO Format 190 
Device State available id device, format is: LTO Format 200 
md device, format js: LTO Format 200 


Fas2040c11-en> M 
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图 14.35 系统 所 识别 到 的 所 有 磁带 


到 的 机 械 手 信 息 (机 械 手 是 VTL 虚拟 出 来 的 ]， 如 图 14.34 所 示 。 输 
“sysconfig -t” 命 令 可 以 查看 系统 识 
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至 此 ， 这 台 VTL 虚拟 出 了 两 台 带 库 ， 当 然 还 可 以 虚拟 更 多 的 带 库 ， 将 它们 分 配 到 另外 
的 FC 端口 。 更 加 灵活 的 是 ，VTL 还 可 以 自身 连接 物理 磁带 库 ， 然 后 将 这 些 物理 资源 透 传 到 
主机 端 ， 这 样 即 使 原来 存在 的 物理 带 库 也 没有 浪费 ， 一 起 整合 了 进来 。 

各 个 厂家 的 VTL 产品 的 设计 都 是 大 同 小 异 ， 几 乎 都 是 用 各 自己 经 成 形 的 盘 阵 产品 ， 将 
其 上 运行 的 程序 换 一 下 ， 就 变 成 了 VTL。 图 14.36 是 EMC 公司 的 VTL 产品 的 配置 界面 。 可 
以 看 到 各 个 厂家 的 设计 都 大 同 小 异 ， 本 质 都 是 一 样 的 。 


[IE 


图 14.36 EMC 公司 的 VTL 产品 配置 界面 
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分 布 式 

群集 

高 可 用 性 群集 
负载 均衡 群集 
高 性 能 群集 


随 着 应 用 程序 对 服务 器 和 存储 系统 的 要 求 越 来 越 高 ， 对 于 传统 设备 来 说 ， 比 如 
PC、PC 服务 器 、 小 型 机 服务 器 等 ， 单 台 设 备 有 时 已 经 不 能 满足 需求 了 。 此 时 虽然 可 
以 使 用 大 型 机 ， 在 单一 设备 上 提供 更 高 的 性 能 ， 但 是 大 型 机 的 物质 成 本 和 维护 成 本 
是 高 不 可 攀 的 ， 而 且 大 型 机 也 不 见得 适合 所 有 应 用 。 怎 么 办 呢 ? 众人 拾 柴火 焰 高 ， 
人 们 想 出 了 一 种 办 法 来 应 对 日 益 扩 张 的 应 用 程序 需求 ， 就 是 用 多 台 设 备 联合 起 来 对 
外 提供 服务 ， 这 就 是 群集 。 

主机 可 以 形成 群集 ， 存 储 设备 一 样 可 以 形成 群集 。 目 前 中 高 端 存储 设备 其 自身 
就 具备 双 控 制 器 。 不 但 如 此 ， 有 一 些 NAS 设备 还 可 以 在 众多 台独 立 设备 之 间 形 成 群 
集 ， 并 且 实 现 了 单一 名 称 空间 ， 即 用 户 访问 目录 路 径 像 访 问 一 台 机 器 一 样 ， 而 实际 
上 ， 可 能 是 由 群集 中 不 同 的 节点 来 提供 服务 。 


大 话 存储 


网 络 存 储 系 统 原 理 精 解 与 最 佳 实践 


15.1 群集 概述 


多 个 节点 来 代替 一 个 节点 完成 任务 ， 毫 无 疑问 是 为 了 提高 处 理 能 力 。 其 次 ， 群 集 还 
可 以 做 到 高 可 用 性 ， 即 一 旦 某 个 节点 发 生 故 障 ， 不 能 再 继续 参与 计算 ， 那 么 群集 中 的 其 他 
节点 可 以 立即 接替 故障 节点 的 工作 。 


15.1.1 高 可 用 性 群集 (HAC) 


在 HA 群集 中 ， 节 点 分 为 活动 节点 和 备份 节点 。 活 动 节点 就 是 正在 执行 任务 的 节点 ， 备 
份 节点 是 活动 节点 的 备份 。 一 旦 活动 节点 发 生 故 障 ， 则 备份 节点 立即 接 蔡 活动 节点 来 执行 
任务 。 高 可 用 性 群集 的 实现 是 基于 资源 切换 的 。 所谓 “资源 ”是 指 HA 群集 中 某 个 节点 发 生 
故障 之 后 ， 备 份 节点 所 要 接管 的 任何 东西 的 一 个 抽象 的 词汇 。 比 如 ， 在 某 个 节点 发 生 故 障 
之 后 ， 其 对 应 的 备份 节点 ， 需 要 接管 故障 节点 上 的 IP 地 址 、 主 机 名 、 磁 盘 卷 、 应 用 程序 的 
上 下 文 等 ， 这 样 才能 将 对 客户 端 造成 的 影响 缩减 到 最 小 。 这 些 被 接管 的 实体 ， 便 被 称 为 “ 资 
源 ”。 资 源 的 监控 和 接管 ， 依 靠 于 HA 软件 。 目 前 存在 多 种 HA 软件 。 每 种 操作 系统 几乎 都 
自 带 HA 软件 ， 它 的 作用 就 是 监控 对 方 节点 的 状态 ， 一 旦 侦 测 到 对 方 的 任何 故障 ,那么 便 会 
强行 将 所 有 资源 占 为 已 有 并 向 客户 端 继续 提供 服务 。 


15.1.2 负载 均衡 群集 (LBC) 


在 负载 均衡 群集 中 ， 群 集中 的 所 有 节点 都 参与 工作 ， 每 个 节点 的 地 位 相同 ， 接 受 的 工 
作 量 按照 某 种 策略 ， 由 一 个 单独 的 节点 作为 调度 来 向 其 他 所 有 参与 运算 的 节点 分 配 ， 或 者 
由 所 有 参与 运算 的 节点 之 间 通 过 网 络 通 信 来 协商 分 配 。 分 配 策略 ， 比 如 轮流 分 配 、 随 机 分 
配 、 最 小 压力 分 配 等 。 


151.3 ”高 性 能 群集 (HPC) 


高 性 能 群集 ， 又 称 科学 计算 群集 。 这 种 群集 其 实 与 LBC 群集 的 本 质 是 相同 的 。 只 不 过 
其 专用 于 科学 计算 ， 即 超大 运算 量 的 系统 ， 比 如 地 质 勤 探 、 气 象 预测 、 分 子 筛选 、 仿 生 模 
拟 、 蛋 白质 构 型 、 分 子 药物 分 析 、 人 工 智能 等 。 这 些 运 算 要 么 逻辑 复杂 、 要 么 需要 大 量 穷 
举 ， 耗 费 极 大 CPU 和 内 存 资 源 。 有 些 需 要 几 天 、 几 个 月 甚至 半年 才能 执行 完毕 。 此 时 ， 增 
加 整个 系统 的 CPU 总 核心 数 ， 可 以 成 倍 的 缩短 执行 时 间 。 


简单 ， 就 是 第 一 天 将 任务 执行 上 ， 一 个 月 之 后 结果 出 来 了 ， 写 论文 、 答 辩 。 那 
E 时 候 用 的 计算 机 都 是 Intel 奔腾 4 的 CPU， 倘 若 用 现在 酷 害 多 核 CPU, RAR 
需要 十 几 天 便 可 以 出 结果 。 


Ber 有 个 同学 的 课题 就 是 计算 分 子 式 ， 这 课题 也 


HPC 群集 中 ， 为 了 增加 整个 系统 的 CPU 核心 数 ， 一 般 引 入 十 几 台 或 者 几 十 台 、 几 百人 台 
计算 机 ， 其 中 每 台 计 算 机 又 可 以 有 多 个 物理 CPU， 每 个 CPU 又 可 以 有 多 个 核心 。 这 样 整个 
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系统 的 CPU 核心 数 会 相当 可 观 。 那么 如 何 利用 这 么 多 的 CPU 呢 ? 如 何 将 任务 平均 分 配 到 每 
个 CPU 核心 上 呢 ? 

Windows 2000 以 后 的 Windows 系统 ， 操 作 系统 默认 便 自 动 支持 同一 台 计 算 机 内 的 多 
个 CPU 或 者 多 个 CPU 核心 , 操作 系统 自动 将 多 个 线程 平 挫 到 多 个 CPU 核心 上 运行 。 但 是 对 
于 不 处 于 同一 台 计 算 机 内 的 CPU 来 说 ， 任 务 将 要 怎么 分 配 到 其 他 节点 上 呢 ? 当然 是 通过 网 
络 了 。 为 了 方便 编程 出 现 了 很 多 API， 为 程序 员 屏 蔽 掉 多 CPU 所 带 来 的 编程 复杂 度 ， 程 序 
员 只 要 按照 这 些 API 规范 来 编写 代码 ， 底 层 便 会 自动 将 运算 任务 分 派 到 网 络 上 的 其 他 运算 
节点 上 。 节 点 接收 到 任务 数据 之 后 ， 再 由 节点 操作 系统 自行 将 这 块 任务 数据 分 派 到 节点 的 
多 个 CPU 核心 上 。MPI 便 是 一 个 目前 广泛 应 用 的 HPC 系统 API。 


15.2 ”群集 的 适用 范围 


群集 可 以 实现 在 系统 路 径 的 任何 点 上 。 
e HFE: CPU、 内 存 、 显 卡 、 显 示 终 端 ”、 以 太 网 卡 、 计 算 机 本 身 、 以 太 网 及 IP 网 
络 设备 、FC 卡 、FC 网 络 交 换 设备 、 磁 盘 阵 列 控制 器 本 身 、 磁 盘 阵 列 控制 器 内 部 的 
各 个 组 件 、 磁 盘 本 身 、 磁 盘 内 部 的 多 片 盘 片 和 多 个 磁头 。 

e ”软件 上 : 应 用 程序 、 文 件 系统 、 卷 管理 系统 。 

什么 时 候 需要 实现 群集 

当 某 个 系统 的 处 理 能 力 不 能 满足 性 能 要 求 的 时 候 ， 可 考虑 使 用 负载 均衡 群集 或 者 高 性 
群集 。 当 追求 系统 的 高 可 用 性 时 ， 即 希望 某 处 故障 不 会 影响 整个 系统 的 可 用 性 的 时 候 ， 
使 用 高 可 用 性 群集 。 当 需要 运算 的 数据 量 很 大 ， 运 算 周 期 很 长 的 时 候 ， 可 考虑 实施 高 性 能 
群集 。 
目前 ， 各 大 知名 网 站 一 般 都 采用 负载 均衡 群集 来 均衡 TCP 连接 请 求 。 由 于 这 些 网 站 每 
天 的 访问 量 很 大 ， 同 时 产生 的 TCP 连接 请 求 也 很 多 ， 所 以 如 果 只 用 一 台 计 算 机 来 接受 这 些 
请 求 ， 根 本 满足 不 了 性 能 ， 甚 至 会 造成 这 人 台 机 器 资源 耗 尽 而 死机 。 基 于 Linux 系统 的 LVS 
负载 均衡 软件 ， 是 由 国人 主持 研发 的 一 种 TCP 负载 均衡 软件 ， 被 广泛 用 于 TCP 连接 压力 很 
大 的 系统 下 。LVS 可 以 基于 很 多 策略 来 将 前 端的 请 求 分 挫 到 后 端的 多 台 计 算 机 上 。 其 本 质 就 
是 一 个 基于 策略 的 TCP 包 转 发 引擎 。 
对 于 比较 重视 IT 建设 的 企业 、 重 要 的 应 用 系统 ， 都 可 实施 HA 群集 来 追求 高 可 用 性 ， 
从 而 避免 故障 造成 的 生产 停顿 。 
各 大 科研 院 所 、 气 象 、 石 油 勘探 等 机 构 ， 由 于 其 需要 很 大 的 运算 量 和 运算 周期 ,一般 
都 有 HPC 群集 。 


153 ”系统 路 径 上 的 群集 各 论 


153.1 硬件 层面 的 群集 
图 15.1 中 箭头 指向 的 部 件 都 可 以 被 群集 化 。 
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e 磁盘 阵列 控制 器 群集 。 目 前 几乎 中 高 端的 磁盘 阵列 的 控制 器 都 为 双 控 架 构 ， 两 个 
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图 15.1 系统 路 径 上 可 实现 群集 的 各 处 


e CPU 的 群集 。CPU 群集 体现 在 多 CPU 的 计算 机 系统 ， 比 如 对 称 多 处 理 器 系统 ， 多 


个 CPU 之 间 共 享 物理 内 存 的 共同 协作 。 目 前 的 服务 器 以 及 小 型 机 系统 大 多 为 这 种 
结构 。 


e 内 存 的 群集 。 多 条 物理 内 存 组 成 更 大 容量 的 空间 ， 并 且 通 过 比如 双 通 道 (相当 于 磁 


盘 系统 中 的 条 带 化 RAID 0) 等 技术 ， 提 高 性 能 。 


e ”以 太 网 卡 的 群集 。 目 前 有 多 种 方式 来 实现 以 太 网 卡 的 群集 。 将 主机 上 的 多 块 以 太 


网 卡 绑 定 ， 向 上 层 提供 一 块 虚拟 网 卡 ， 底 层 则 可 以 通过 ARP 轮 询 负载 均衡 方式 ， 
或 者 802.3ad 方式 等 向 外 提供 负载 均衡 ， 或 者 HA 方式 的 多 路 径 访 问 。 


@ URME IP 网 络 设备 的 群集 。 在 以 太 交 换 机 和 IP 路 由 器 上 , 多 台 设备 之 间 协 作 转 


发 网 络 数据 包 ( 帧 )， 诸 如 Cisco、 华 为 等 厂商 ， 都 已 经 实现 了 负载 均衡 以 及 HA 方 
式 的 群集 。 


e 显卡 的 群集 。 显 卡 群集 是 最 近 出 现 的 技术 。NVIDIA 以 及 AMD 公司 都 有 对 应 的 解 


决 方案 。 将 插 在 总 线 上 的 多 块 显卡 之 间 通 过 特殊 连 线 连接 起 来 , 实现 对 大 型 3D 数 
据 泻 染 的 负载 均衡 ， 性 能 得 到 很 大 提升 。 


e 显示 器 群集 。 比 如 电视 墙 等 。 但 是 这 个 严格 来 说 并 不 算 作 群集 。 
e FC 卡 的 群集 。 通 过 与 主机 上 的 多 路 径 软件 配合 ， 多 块 FC 卡 之 间 可 以 实现 流量 的 


负载 均衡 和 HA。 或 者 通过 FC 网 络 中 的 ISL 链 路 负载 均衡 、 HA 方式 实现 流量 分 挫 。 


e FC 网 络 设备 的 群集 。 目 前 来 说 ，FC 网 络 设备 并 没有 像 以 太 网 以 及 IP. 网 络 设备 那 


样 实现 负载 均衡 以 及 HA。 但 是 很 多 网 络 存储 系统 中 ， 一 般 都 部 署 多 台 FC 交换 机 
以 避免 单 点 故障 , 但 是 这 个 环境 中 的 FC 交换 机 本 身 并 没有 群集 智能 ， 所 有 群集 风 
辑 都 运行 在 FC 节点 上 。 


控制 器 之 间 可 以 为 HA 关系 ， 或 者 为 负载 均衡 关系 。 


e 磁盘 的 群集 。 典 型 的 磁盘 群集 就 是 RAID 系统 ，7 种 RAID( 磁 盘 和 群集) 方式 ， 这 里 就 


不 多 描述 了 。 其 次 磁盘 内 部 的 多 块 盘 片 ， 多 个 磁头 之 间 也 组 成 了 群集 ， 但 这 并 不 
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能 算 作 群集 ， 因 为 同一 时 刻 只 能 有 一 个 磁头 在 读 写 。 
1532 软件 层面 的 群集 


应 用 程序 文件 系统 卷 管理 系统 
^ ^ ^ 


Bl52 软件 层面 的 群集 


1. 应 用 程序 的 群集 

一 个 应 用 程序 可 以 同时 启动 多 个 实例 (进程 )， 共同 完成 工作 。 应 用 程序 的 不 同 实 例 可 以 
运行 在 同一 台 机 器 上 ， 也 可 以 运行 在 不 同 的 机 器 上 ， 之 间 通 过 网 络 交 互 协商 信息 。 

2. 文件 系统 的 群集 

文件 系统 的 群集 是 一 门 比较 独立 的 课题 。 可 以 实现 群集 功能 的 文件 系统 称 为 群集 文件 
系统 。 比 如 NFS、CIFS 等 网 络 文件 系统 ， 就 是 最 简单 的 群集 文件 系统 。 

群集 文件 系统 的 出 现 主要 是 为 了 解决 三 个 问题 ， 容 量 、 性 能 、 共 享 。 

容量 问题 。 群 集 文件 系统 有 一 类 又 被 称 为 分 布 式 文件 系统 。 即 某 个 全 局 目录 下 的 存储 
空间 ， 实 际 上 是 分 布 在 群集 中 的 各 个 节点 上 的 。 分 布 式 文件 系统 将 每 个 节点 上 的 可 用 空间 
进行 虚拟 的 整合 ， 形 成 一 个 虚拟 目录 ， 并 根据 多 种 策略 来 判断 数据 的 流向 ， 从 而 将 写 入 这 
个 目录 的 数据 对 应 成 实际 存储 空间 的 写 入 。 这 样 便 可 以 做 到 群集 中 的 整合 存储 ， 榨 干 最 后 
-点 群集 的 资源 优势 。 

性 能 问题 。 用 多 个 节点 共同 协作 来 获取 高 性 能 ， 这 在 文件 系统 层次 依然 成 立 。 群 集 文 
件 系统 使 得 每 个 节点 不 必 连 接 昂 贵 的 磁盘 阵列 ， 就 可 以 获得 较 高 的 文件 10 性 能 。 在 分 布 式 
文件 系统 的 虚拟 整合 目录 的 做 法 之 上 ， 又 采取 了 类 似 磁盘 条 带 RAID 0 的 处 理 方式 ， 依 据 各 
种 负载 均衡 策略 ， 将 每 次 10 写 入 的 数据 ， 分 摊 到 所 有 节点 上 ， 节 点 获得 的 越 多 性 能 提升 就 
越 大 。 但 这 只 是 理论 情况 ， 实 际 使 用 起 来 群集 文件 系统 并 不 是 一 个 容易 实施 的 系统 ， 实 施 
之 后 想 要 获得 高 性 能 ， 必 须 经 过 长 时 间 的 优化 调试 过 程 。 

共享 访问 。 群 集 文件 系统 所 解决 的 最 后 一 个 问题 ， 也 是 最 为 重要 的 一 个 问题 ， 就 是 多 
节点 共同 访问 相同 目录 和 相同 文件 的 问题 。 群 集 文件 系统 对 多 个 节点 ， 同 时 读 写 相 同 的 文 
件 做 了 很 周全 的 考虑 ， 能 保证 所 有 节点 都 能 读 到 一 致 性 的 数据 ， 并 且 利用 分 布 式 锁 机 制 保 
证 在 允许 的 性 能 下 ， 节 点 之 间 不 会 发 生 写 冲突 。 

常见 的 群集 文件 系统 有 PVFS、PVFS2、Lustre、GFS、GPFS、DFS、SANFS、SANergy 
等 。 在 这 里 就 不 做 过 多 介绍 了 。 


3. 卷 管理 系统 的 群集 
本 机 的 卷 可 以 与 本 机 卷 或 者 远程 计算 机 上 的 卷 进 行 镜 像 等 协同 操作 ， 形 成 群集 。 


15.4 Xj: Microsoft MSCS 软件 实现 应 用 群集 


Windows Server 2003 群集 要 求 每 台 服 务 器 上 至 少 有 两 块 以 太 网 络 适 配器 , 一 块 作为 公 
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网 络 适配器 (连接 外 部 网 络 )， 一 块 作为 专用 网 络 适配器 (用 于 心跳 检测 )。 群 集中 的 所 有 节 
点 必须 在 同一 个 域 中 ， 一 般 双 机 环境 中 直接 使 用 其 中 一 台 为 主 域 控制 器 ， 另 一 台 为 备份 域 
控制 器 。 


15.4.1 在 Microsoft Windows Server 2003 上 安装 MSCS 


11 使 用 “控制 面板 ”的 “添加 /删除 程序 ”工具 ， 添 加 Windows 组 件 ， 安 装 群集 
服务 。 

2) 在 管理 工具 菜单 中 打开 群集 管理 器 , 当 弹 出 群集 连接 向 导 时 , 选择 “创建 新 群集 ”， 
并 单 击 “下 一 步 ”按钮 继续 ， 如 图 15.3 所 示 。 

3] 输入 群集 的 唯一 NetBIOS 名 称 (最 多 15 个 字符 ]， 然 后 单 击 “ 下 一 步 ”按钮 ， 如 
图 15.4 所 示 。 


rn 


Cluster Honc ond Domain 
5peci the nane ol Ihe nen serva cluster and the demain i which it wil ba 


Selector ype the nome of the damain in which he cluster ril be crested Orly 
computers in this demain can be member cf the cluster. 


Fe 可 


Tier a cher nome that iz une in the domain 
zix Thi mants a va compe rana. 


P Duvar name: 


pom 


i 


贺 15.3_ 创 建新 群集 图 15.4 输入 群集 名 称 


4] 如 果 在 本 地 登录 一 个 不 属于 “具有 本 地 管理 特权 的 域 账户 ”的 账户 ， 向 导 会 提示 
用 户 指定 一 个 账户 ， 如 图 15.5 所 示 。 


in Access Denied 2 
Access to the domain mae danied You most enler logon inlomalion lor accessing. fy 
"fe daman you speci 


lanme or 
Bamot [e 


Doman 。 eeDowsncam ”可 


图 15.5_ 输 入 群集 账户 信息 


5】 确认 将 要 作为 第 一 个 节点 创建 群集 的 服务 器 的 名 称 , 输入 节点 1 的 名 称 , 如 图 15.6 
61 安装 程序 将 分 析 节 点 ， 查 找 可 能 导致 安装 出 现 问 题 的 硬件 或 软件 问题 。 检 查 所 有 
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和 警告 或 错误 信息 。 单 击 “ 详 细 信息 ”按钮 ， 可 以 了 解 有 关 每 个 警告 或 提示 的 详细 
信息 ， 如 图 15.7 所 示 。 


dapi s Analyzing Configurolion 

ie fine t i Q Please wait mhie the wizard determinee tha custar configuration. 

Enter the name of the computer that wil be the first node in the new cluster. evo iro 
ov! Esteblishing node 

Computer name: 3E ow! Checking node feasibity 

fi 7 z 

C E. i 

TTE ¥ Found a resource that it common ta all nodes ihat can be used ae a quorum ietouic 
， E 
Teks completed 
Tick Heu to continue. Dick Back to change the corfiguralion. 
EN gren] 


Eliss 输入 节点 名 称 图 15.7_ 检 查 群 集 配 置 环境 
7】 输入 唯一 的 群集 IP 地 址 。 群 集 IP 地 址 只 能 用 于 管理 ， 而 不 能 用 于 客户 端 连接 ， 如 
图 15.8 所 示 。 


cw HEC x 
IP Address FS 
Enter an IP address that clustar managemenl tocia vill use to connect lo the. f J 
uater > 
Péddess: 
172.26 .24 . 10 
Em 


图 158 输入 群集 IP 地 址 
81 输入 在 安装 时 创建 的 群集 服务 帐户 的 “用 户 名 ”和 “密码 ”。 
9] 群集 配置 完成 ， 单 击 “ 完 成 ”结束 。 
10) 群集 配置 完成 后 ， 选 择 磁盘 阵列 上 的 一 个 LUN 为 仲裁 盘 。 
111 完成 节点 1 的 配置 后 ,在 另 一 台 机 器 上 也 安装 群集 服务 ， 完 成 后 打开 群集 管理 器 。 
12】 当 弹出 群集 连接 向 导 时 ， 选 择 “ 加 入 现 有 的 群集 ”， 根据 向 导 完 成 节点 2 的 配置 。 


T 仲裁 磁盘 (quorum disk) 用 于 存储 集群 配置 数据 库 检 查 点 ， 以 及 协助 管理 集群 和 
示 维持 一 致 性 的 日 志文 件 。 仲 裁 盘 可 以 是 一 个 逻辑 分 区 ， 也 可 以 是 一 个 单独 的 
DH 磁盘 。 
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15.4.2 配置 心跳 网 络 


11 启动 “群集 管理 器 ”。 

2) 在 左 窗 格 中 ， 单 击 “ 和 群集 配置 ”， 再 单 击 “网 络 ”， 右 击 用 于 专用 网 络 (心跳 检测 
专用 ) 的 适配器 ， 然 后 选择 “属性 ”命令 。 

3] 单 击 “ 仅 用 于 内 部 群集 通信 (专用 网 络 )”， 如 图 15.9 所 示 。 

4] 单 击 “ 确 定 ” 按 钮 。 

5】 右 击 用 于 公用 网 络 的 适配器 ， 然 后 选择 “属性 ”命令 (如 图 15.10 所 示 )。 

61 选中 “针对 群集 应 用 启用 该 网 络 ” 复 选 框 。 

T) 选中 “所 有 通信 (混合 网 络 )” 单 选 按钮 ， 然 后 单 击 “ 确 定 ”按钮 。 


Description: [Private Heatbeal Network Connection 


T7. Enable this network for cluster use 
Tris ework performs the rotowing roein the cister: 
C. Client access only (publie network) 
€. eral cluster communicatione only [private network) 
C. jl communications (mired network) 


State E 
Subnetmask: 255000 


Em] oem dm | Ex] ee] ow 
图 15.9 配置 专用 网 络 图 15.10 ”配置 公用 网 络 


15.4.3 测试 安装 


在 “安装 ”程序 结束 后 ， 有 几 种 验证 群集 服务 安装 的 方法 ， 其 中 包括 如 下 。 

11 群集 管理 器 : 如 果 仅 完成 了 节点 1 的 安装 ， 启 动 “群集 管理 器 ”， 然 后 尝试 连接 
到 和 群集。 如果 已 安装 了 第 二 个 节点 2， 可 在 任意 一 个 节点 上 启动 “群集 管理 器 ”， 
然后 确认 第 二 个 群集 显示 在 列表 上 。 

2] 查看 启动 服务 : 使 用 管理 工具 中 “服务 ”， 确 认 群 集 服务 已 显示 在 列表 上 并 已 
启动 。 

3] 事件 日 志 : 使 用 “事件 查看 器 ”检查 系统 日 志 中 的 “ClusSvc” 条 目 。 会 看 到 有 关 
确认 群集 服务 已 经 顺利 形成 或 加 入 一 个 群集 的 条 目 。 

4] 群集 服务 注册 表 项 : 确认 群集 服务 安装 程序 将 正确 的 项 写 入 注册 表 。 可 以 在 
HKEY_LOCAL_MACHINE\Cluster 下 找到 许多 注册 表 设 置 。 

5] 选择 “开始 ”一 “运行 ”菜单 命令 ， 然 后 在 弹出 的 对 话 框 中 ， 输 入 “虚拟 服务 ” 
名 称 。 确 认可 以 连接 并 看 到 资源 。 
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1544 测试 故障 转移 


验证 资源 将 执行 故障 转移 。 
选择 “开始 ”一 “程序 ”一 “管理 工具 ”菜单 命令 ， 然 后 单 击 “群集 管理 器 ”， 如 
图 15.11 所 示 。 


Biss 群集 管理 器 主 界面 


右 击 “磁盘 组 1” 组 ， 然 后 单 击 “ 移 动 组 ”。 该 组 及 其 所 有 资源 将 转移 到 男 一 个 节点 。 
稍 后 ，“ 磁 盘 F:、G:” 将 在 第 二 个 节点 上 实现 联机 。 在 窗口 中 观察 该 转移 。 退 出 “群集 管 
理 器 ”。 


15.5 Sj: SQL Server 群集 安装 配置 


上 面 我 们 已 经 设置 好 了 MSCS 群集 基础 平台 ， 下 面 介 绍 在 这 个 平台 上 安装 SQL Server 
数据 库 。SQL Server 2000 的 群集 安装 配置 已 经 直接 集成 到 了 SQL Server 2000 的 数据 库 安 
装 向 导 中 ， 能 够 自动 识别 到 Windows Server 2003 上 的 群集 系统 并 启用 数据 库 虚 拟 服务 器 
选项 , 实现 SQL Server 2000 群集 虚拟 服务 器 在 两 台 服 务 器 上 的 自动 安装 配置 。 安装 完成 后 ， 
须 安 装 SQL2000 SP3 补丁 包 。 

确保 SQL Server 2000 群集 在 两 台 服务 器 上 的 自动 安装 配置 ， 两 台 服 务 器 MS-Clus-01a 
与 MS-Clus-01b， 以 及 共享 磁盘 柜 都 须 处 于 开机 在 线 状 态 。 


15.5.1 安装 SQL Server 


11 在 接管 了 SQL 数据 盘 ( 磁 盘 Y:) 的 节点 服务 器 MS-Clus-01a 上 , 放 入 SQL Server 2000 
企业 版 安装 光盘 , 启动 SQL Server 2000 的 安装 向 导 , 如 图 15.12 和 图 15.13 所 示 。 

2] 安装 向 导 进入 “计算 机 名 ”界面 后 ， 会 自动 识别 到 Windows Server 2003 的 群集 
系统 ， 选 择 “ 虚 拟 服务 器 ”选项 ， 输 入 虚拟 SQL Server 名 称 “MS-Clus-SQL”， 单 
击 “ 下 一 步 ” 按 钮 ， 如 图 15.14 所 示 。 


t 3451 


大 话 存储 


网 络 存 储 系统 原理 精 解 与 最 佳 实践 


sL i zi 
C 4 


15.12 ”共享 磁盘 Y 被 MY-CLUS-01A 节点 掌管 


ED xj 计算 机 名 
D a 欢迎 使 用 Microsoft SQL Server TRAF. 


SAETH EURO: SD. Seve 实例 
prx ecd T 


generes SQL Server 的 新 实例 中 修改 现 有 的 实 i SOL Saver 


个 ENL 
C mitia 
C gue) 
E 
Lu] we | m] 
15.13 Zt SQL Server B 15.14 ”输入 虚拟 SQL Server 名 称 


3] 在 “故障 转移 群集 ”对 话 框 中 输入 IP 地 址 “192.0.0.4”， 选 用 网 络 Public， 单 击 
“添加 ”按钮 ， 使 其 添加 到 列表 中 ， 即 这 个 DP 地 址 属于 公用 网 络 。 然 后 单 击 “ 下 
- 步 ” 按 钮 ， 如 图 15.15 所 示 。 
4] 在 “群集 磁盘 选择 ”对 话 框 中 选择 “组 0” 的 共享 磁盘 “Y: ”， 然 后 单 击 “ 下 一 
步 ”按钮 ， 如 图 15.16 所 示 。 


xi Er xi 
请 输入 虚拟 服务 器 信息 ” 请 选择 用 来 放置 数据 文件 的 群集 磁盘 。 
虚拟 服务 器 名 称 : MS-CLUS-SQL. 
IP HEU. 192-. 0-5. 80e n c 
TB 255 . 255 . 255 . 0 
要 使 用 的 网 络 E} Pubic y 
idi] 
PRAE XH FER 
4d lal 
5m |«r-5e[r-5e»| _ ma | 5m | «r-se[r-so»] m | 
图 15.15 配置 虚拟 服务 器 IP 地 址 图 15.16 ”选择 用 于 存放 数据 的 磁盘 


5] 在 “群集 管理 ”对 话 框 ， 确 保 “MS-CLUS-01A” 与 “MS-CLUS-01B” 都 在 “已 配 
置 节点 ”列表 中 ， 然 后 单 击 “ 下 一 步 ”按钮 ， 如 图 15.17 所 示 。 
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群集 管理 E 


群集 定义 
可 以 定义 或 修改 群集 定义 。 进 而 可 以 选择 计算 机 的 实例 以 添加 到 定义 中 。 安 装 程序 
将 根 硕 指 定 在 寿 集 中 的 计算 机 上 进行 安装 或 郑 场 。 


可 用 节点 已 配置 节点 四 


不 可 用 节点 凯 ) 


mm | em | 


Bl 选择 群集 中 要 使 用 到 的 节点 


在 “远程 信息 ”对 话 框 ， 输 入 用 户 名 、 密 码 及 域名 ， 然 后 单 击 “ 下 一 步 ” 按 钮 ， 
如 图 15.18 所 示 。 

在 “实例 名 ”对 话 框 , 选中 “默认 ” 复 选 框 ， 然 后 单 击 “ 下 一 步 ”按钮 ， 如 图 15.19 
所 示 。 


实例 名 xi 


me PS F BUpI 

je 车 要 进行 默认 安装 ， 请 选中 TRU t T$. 
用 PS fisme 
mo eee 0 — 


W: fora oS 


车 要 在 该 计算 机 上 安装 或 维护 SQL Server 的 命 
eh WAER KU 复 选 框 并 键入 或 选择 实例 


新 各 称 必须 不 要 过 16 个 宁 符 ,并且 应 以 宁 母 或 
i 有 关 更 多 信息 ,请 单 击 ” 


zn 


spo |«r-sp[r-5p»] x^ | a» |:r-sp[r-sm»] xm | 


图 15.18 输入 账户 信息 加 15.19 实例 名 窗口 

在 “安装 类 型 ”对 话 框 中 选中 “典型 ” 单 选 按钮 ， 由 于 前 面 磁盘 选择 了 “组 0” 的 
“磁盘 Y”，“ 目 的 文件 夹 ” 的 “数据 文件 ”自动 定位 到 Y: 盘 ， 而 SQL 程序 文件 
则 会 自动 安装 到 MS-Clus-01a 与 MS-Clus-01b 的 本 地 盘 相 关 目 录 下 ， 单 击 “ 下 一 
步 ”按钮 ， 如 图 15.20 所 示 。 

在 “服务 帐户 ”对 话 框 ， 选 中 “对 每 个 服务 使 用 同一 帐户 ” 单 选 按钮 ， 由 于 是 群 
集 配 置 “ 使 用 本 地 系统 帐户 ” 单 选 按钮 为 不 可 用 ， 输 入 用 户 名 、 密 码 及 域名 ， 然 
后 单 击 “下 一 步 ”按钮 ， 如 图 15.21 所 示 。 

在 “身份 验证 模式 ”对 话 框 中 选中 “混合 模式 ” 单 选 按钮 ， 输 入 sa 密码 ， 然 后 单 
击 “ 下 一 步 ”按钮 ， 如 图 15.22 所 示 。 

安装 完成 后 ， 打 开 “ 和 群集 管理 器 ”， 在 “群集 配置 ”下 可 看 到 “资源 类 型 ”中 多 
了 两 个 SQL Server 的 资源 , 这 是 因为 SQL Server 2000 企业 版 为 Cluster-Aware 的 
应 用 系统 ， 安 装配 置 时 自动 添加 了 支持 Cluster 的 服务 组 件 ， 如 图 15.23 所 示 。 
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ES 
xj r 
PSEEENRHRN, MES “F-E”. ETRS DE 
GANDO — SEREEDER WU -ERPXSARTE. ENNE RE 
E 服务 设置 
CARA 只 安装 必需 的 选项 = C FIASHERIEIKIP L) 
C 自 定义 C) — ÜNUUERESUIOET. IOUSUBPRRUU SU. 
€ 使 用 域 用 户 帐户 W 
Ed | : 
程序 文件 MEW... | Ce Wiereseft SQL Server 用 记名 WD: FluswAee 
数据 文件 Yi. Microsoft SQL Server BO: Besse oo 
zE TA: uo: farco 
BFXHRDBLNSA: TASE par 
RGB ENDA: 1 3455828 SEXE 
REO RUN. E NE T- ERER (D) 
*mo | 《上 一 步 @) | 下 一 步 中 > 取消 Wo |«t-5o Li] 
[520 安装 目的 选择 图 15.21 输入 账户 信息 
xi iaa 
= 
MRAR. 
(C Windows BHHRUEIRW] a en | 


G 混合 模 式 ( Windowe 身份 验证 和 SQL Server MRE) U) 


sto sa dE. 

ASHEL ll 

确 六 密码 E} I3. 1] 
T SACRO K 


RUNS Y. 


EN EN 


[ ma uj 


图 15.22 身份 验证 配置 Bl523 新 加 入 的 资源 (1) 


12】 单 击 “ 组 0”， 可 看 到 除 原 有 的 “磁盘 Y:” 外 ， 新 添 了 5 个 SQL 资源 ， 而 且 都 已 
联机 ， 说 明 SQL Server 2000 群集 安装 配置 完成 ， 如 图 15.24 所 示 。 


Rn RED Oom 


1524 新 加 入 的 资源 


155.2 验证 SQL 数据 库 群 集 功能 


在 一 台 客 户 机 上 安装 SQL Server 2000 的 “企业 管理 器 ”与 “查询 分 析 器 ”， 来 测试 验 
证 数据 库 的 FailOver 功能 。 
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11 打开 “企业 管理 器 ”， 注册 数据 库 “192.0.0.4”， 即 虚拟 数据 库 的 IP 或 服务 器 名 ， 
如 图 15.25 所 示 。 


1525 连接 到 虚拟 服务 器 


2) 新 建 一 个 测试 数据 库 “MytestDB”， 如 图 15.26 所 示 。 
31 在 数据 库 “MytestDB” 中 新 建 表 “employee”， 并 添加 儿 条 记录 ， 如 图 15.27 所 示 。 


hà x^ Wü) FED IAD POW WWD 


AA telne] 
g e- tm ^23 ^vülWtG 
EMI z 
图 apm p A TER 
guum WR 2003-12-20 RDUM 
uns m 
mut dm 
LLLI m 
E cm 
可 用 空间 : 《未 知 ) 
MPR: um 
as 
Een * 
tasane * 
a 
sie x 
eue TREE - 
Lax ] ma 加 


[115.26 创建 新 数据 库 “MytestDB” 图 15.27 新 建 表 


4] 打开 “查询 分 析 器 ”, 连接 到 192.0.0.4 的 数据 库 “MytestDB”, 检索 表 “employee” 
返回 数据 ， 如 图 15.28 所 示 。 


a8 5.28 employee 返回 数据 
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5] 在 “群集 管理 器 ”中 移动 数据 库 资源 组 “组 0” (MS-Clus-01A MS-Clus-01B), jl 
行 资 源 切换 ， 如 图 15.29 和 图 15.30 所 示 。 
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Bl3o 手动 切换 资源 (2) 


61 移动 “组 0” 过 程 中 ， 在 “查询 分 析 器 ”中 持续 执行 数据 检索 ， 刚 开始 “连接 中 
断 ” 检 索 不 到 数据 ， 几 十 秒 钟 后 又 恢复 正常 ， 能 顺利 检索 到 数据 ， 如 图 15.31 和 
15.32 所 示 。 
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ml 5.31 服务 中 断 B 15.32 ”服务 恢复 
测试 验证 表明 ， 此 配置 方案 可 以 实现 数据 库 的 Failover， 而 且 切 换 时 间 在 30 秒 左 右 。 
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15.6 小结: 世界 本 身 就 是 一 个 群集 


世界 就 是 一 个 群集 。 任 何 目前 所 理解 的 物质 ， 都 是 由 更 小 的 “粒子 ”组 成 的 群集 。 

或 者 说 ， 任 何 “ 物 质 ”， 其 实 都 是 由 世界 本 源 的 基本 公式 炙 加 而 成 的 庞大 公式 。 任 何 
逻辑 ， 都 是 这 些 “物质 ” 即 公式 的 登 加 演算 过 程 。 逻 辑 是 “物质 ”变化 过 程 的 体现 。 任 何 
对 逻辑 的 改变 ， 最 终 体 现 到 对 “物质 ”的 改变 ， 而 “物质 ”的 改变 ， 又 体现 为 逻辑 。 
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数据 是 表示 信息 的 信息 。 数 据 丢 失 或 者 损坏 ， 信 息 也 就 丢失 或 者 被 捏 昌 了。 为 了 
防止 数据 意外 丢失 或 者 损毁 ， 人 们 想 出 了 一 系列 的 方法 来 保护 当前 的 数据 。 此外， 为 
了 最 大 程度 地 保护 数据 ， 人 们 还 在 其 他 地 方 保存 数据 的 一 份 或 者 多 份 副本 。 

数据 保护 和 数据 备份 看 似 简单 ， 实 则 很 复杂 。 数 据 保 护 和 备份 已 经 成 为 存储 领域 
的 一 门 分 支 学 科 。 本 章 就 这 个 分 支 作 简要 介绍 ， 并 给 出 几 个 案例 。 
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16.1 数据 保护 


数据 保护 ， 就 是 对 当前 位 置 上 的 数据 进行 备份 ， 以 防 突如其来 的 磁盘 损坏 ， 或 者 其 他 
各 种 原因 导致 的 数据 不 可 被 访问 ， 或 者 部 分 数据 损坏 ， 影 响 到 业务 层 。 备 份 后 的 数据 ， 可 
以 在 数据 损毁 之 后 恢复 到 生产 磁盘 上 ， 从 而 最 大 程度 的 降低 损失 。 


16.1.1 数据 保护 的 方法 

从 底层 来 分 ， 数 据 保 护 备 份 可 以 分 为 文件 级 的 保护 和 块 级 的 保护 。 

1. 文件 级 备份 

文件 级 的 备份 ， 即 备份 软件 只 能 感知 到 文件 这 一 层 ， 将 磁盘 上 所 有 的 文件 ， 通 过 调用 
文件 系统 接口 备份 到 另 一 个 介质 上 。 所 以 文件 级 备份 软件 ， 要 么 依靠 操作 系统 提供 的 API 
来 备份 文件 ， 要 么 本 身 具 有 文件 系统 的 功能 ， 可 以 识别 文件 系统 元 数据 。 

文件 级 备份 软件 的 基本 机 制 ， 就 是 将 数据 以 文件 的 形式 读 出 ， 然 后 再 将 读 出 的 文件 存 
储 在 另外 一 个 介质 上 。 这 些 文件 在 原来 的 介质 上 ， 存 放 可 以 是 不 连续 的 ， 各 个 不 连续 的 块 
之 间 的 链 关 系 由 文件 系统 来 管理 。 而 如 果 备 份 软件 将 这 些 文件 备份 到 新 的 空白 介质 上 ， 那 
么 这 些 文件 很 大 程度 上 是 连续 存放 的 ， 不 管 是 备份 到 磁带 还 是 磁盘 上 。 

磁带 不 是 块 设备 ， 由 于 机 械 的 限制 ， 在 记录 数据 时 ， 是 流 式 连续 的 。 磁 带 上 的 数据 也 
需要 组 织 ， 相 对 于 磁盘 文件 系统 ， 也 有 磁带 文件 系统 ， 准 确 来 说 应 该 叫做 磁带 数据 管理 系 
统 。 因 为 对 于 磁带 来 说 ， 它 所 记录 的 数据 都 是 流 式 的 、 连 续 的 。 每 个 文件 被 看 作 一 个 流 ， 
流 与 流 之 间 用 一 些 特殊 的 数据 间隔 来 分 割 ， 从 而 可 以 区 分 一 个 个 的 “文件 ”， 其 实 就 是 一 
段 段 的 三 进 制 数 据 流 。 磁 带 备份 文件 的 时 候 ， 会 将 磁盘 上 每 个 文件 的 属性 信息 ， 和 实体 文 
件数 据 一 同 备 份 下 来 ， 但 是 不 会 备份 磁盘 文件 系统 的 描述 信息 ， 比 如 一 个 文件 所 占用 的 磁 
担 簇 号 链表 等 。 因 为 利用 磁带 恢复 数据 的 时 候 ， 软 件 会 重 构 磁 盘 文 件 系 统 ， 并 从 磁带 读 出 
数据 ， 向 磁盘 写 入 数据 。 

在 2003 年 之 前 ， 很 多 人 都 用 磁带 随身 听 来 欣赏 音乐 。 而 2006 年 之 后 ， 就 很 少 看 到 带 
随身 听 的 人 ， 大 都 换 成 了 MP3，MP4。 随 身 听 用 的 是 模拟 磁带 ， 也 就 是 说 它 记录 的 是 模拟 
信号 。 电 流 强 ， 磁 化 的 就 强 ， 电 流 弱 ， 磁 化 的 就 弱 。 磁 转 成 电 的 时 候 也 一 样 ， 用 这 种 磁 信 
号 强 弱 信息 来 表达 声音 振动 的 强 弱 信息 ， 从 而 形成 音乐 。Mp3 则 是 利用 数字 信息 来 编码 声 
音 振动 强 弱 和 频率 信息 。 虽 然 由 模拟 转向 数字 ， 需 要 数字 采样 转换 ， 音 乐 的 质量 相对 模拟 
售 号 来 的 差 ， 算 法 也 复杂 ， 但 是 它 具 有 极 大 的 抗 干扰 能 力 ， 而 且 可 以 无 颖 的 和 计算 机 结合 ， 
形成 能 发 声 的 计算 机 (多 媒体 计算 机 )。 

录音 带 、 录 像 带 ， 都 是 模拟 信号 磁带 。 用 于 文件 备份 的 磁带 ， 当 然 是 数字 磁带 ， 它 记 
录 的 是 磁性 的 极 性 ， 而 不 是 被 磁化 的 强 弱 ， 比 如 用 N 极 来 代表 1， 用 S 极 来 代表 0。 

如 果 备份 软件 将 文件 备份 到 磁盘 介质 或 者 任何 其 他 的 块 介质 上 ， 那 么 这 些 文件 就 可 以 
是 不 连续 的 。 块 设备 可 以 跳跃 式 的 记录 数据 ， 而 一 个 完整 数据 链 信息 ， 由 管理 这 种 介质 的 
文件 系统 来 记录 。 磁 盘 读 写 速 度 比 磁带 要 高 的 多 。 

近年 来 出 现 了 VTL, Bl Virtual Tape Library( 虚 拟 磁带 库 ]， 用 磁盘 来 模拟 磁带 。 这 个 概 
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念 看 似 复杂 ， 其 实 实现 起 来 无 非 就 是 一 个 协议 转换 器 ， 将 磁盘 逻辑 与 磁带 逻辑 相互 映射 融 
合 ， 欺 骗 上 位 程序 让 其 认为 底层 物理 介质 是 磁带 ， 然 后 再 按照 磁盘 的 记录 方式 读 写 数据 ， 
这 就 是 虚拟 化 的 表现 。 这 种 方法 ， 提 高 了 备份 速度 和 灵活 性 ， 用 处 很 大 。 


王 时 数据 保护 并 不 是 阳春 白雪 ， 常 用 的 赛 门 铁 克 公 司 的 Ghost， 就 是 一 种 文件 备份 
: 软件 。 它 将 一 个 分 区 或 者 整 块 磁盘 上 的 文件 ， 与 磁盘 分 区 表 、mbr 等 信息 一 同 
备份 ， 打 包 成 一 个 大 文件 ， 系 统 故障 的 时 候 ， 就 可 以 用 软件 来 读 取 这 个 文件 ， 
向 磁盘 中 做 恢复 。Ghost 支持 多 种 文件 系统 ， 包 括 Linux 的 EXT 文件 系统 。 


Veritas, CA 等 厂家 都 有 自己 的 文件 级 备份 软件 解决 方案 。 

2. 块 级 备份 

所 谓 块 级 的 备份 ， 就 是 备份 块 设备 上 的 每 个 块 ， 不 管 这 个 块 上 有 没有 数据 ， 或 是 这 个 
块 上 的 数据 属于 哪个 文件 。 块 级 别 的 备份 ， 不 考虑 也 不 用 考虑 文件 系统 层次 的 逻辑 ， 原 块 
设备 有 多 少 容量 ， 就 备份 多 少 容量 。 在 这 里 “ 块 ”的 概念 ， 对 于 磁盘 来 说 就 是 扇 区 Sector. 
块 级 的 备份 ， 是 最 底层 的 备份 ， 它 抛 开 了 文件 系统 ， 直 接 对 磁盘 扇 区 进行 读 取 ， 并 将 读 取 
到 的 扇 区 写 入 新 的 磁盘 对 应 的 扇 区 。 
这 种 方式 的 一 个 典型 实例 ,就 是 磁盘 镜像 。 而 磁盘 镜像 最 简单 的 实现 方式 就 是 RAID 1。 
RAID 1 系统 将 对 一 块 (或 多 块 ) 磁 盘 的 写 入 , 完全 复制 到 男 一 块 (或 多 块 ) 磁 盘 ， 两 块 磁盘 内 容 
完全 相同 。 有 些 数 据 恢复 公司 的 一 些 专用 设备 “磁盘 复制 机 ”也 是 直接 读 取 磁盘 肩 区 ， 然 
后 复制 到 新 的 磁盘 。 
基于 块 的 备份 软件 ， 不 经 过 操作 系统 的 文件 系统 接口 ， 通 过 磁盘 控制 器 驱动 接口 ， 直 
接 读 取 磁盘 ， 所 以 相对 文件 级 的 备份 来 说 ， 速 度 加 快 很 多 。 但 是 基于 块 的 备份 软件 备份 的 
数量 相对 文件 级 备份 要 多 ， 会 备份 许多 僵尸 扇 区 ， 而 且 备份 之 后 ， 原 来 不 连续 的 文件 ， 备 
份 之 后 还 是 不 连续 ， 有 很 多 碎片 。 文 件 级 的 备份 ， 会 将 原来 不 连续 存放 的 文件 ， 备 份 成 连 
续 存 放 的 文件 ， 恢 复 的 时 候 ， 也 会 在 原来 的 磁盘 上 连续 写 入 ， 所 以 很 少 造成 碎片 。 有 很 多 
系统 管理 员 ， 都 会 定时 将 系统 备份 并 重新 导入 一 次 ， 就 是 为 了 剃 除 磁 盘 碎 片 ， 其 实 这 么 做 
的 效果 和 磁盘 碎片 整理 程序 效果 一 样 ， 但 是 速度 却 比 后 者 快 的 多 。 


16.2 ”高 级 数据 保护 方法 


16.2.1 远程 文件 复制 


远程 文件 复制 方案 ， 是 把 需要 备份 的 文件 ， 通 过 网 络 传输 到 异地 容 灾 站 点 。 典 型 的 代 
表 是 rsync 异步 远程 文件 同步 软件 。 这 是 一 个 运行 在 Linux 下 的 文件 远程 同步 软件 。 它 可 以 
监视 文件 系统 的 动作 ， 将 文件 的 变化 ， 通 过 网 络 同步 到 异地 的 站 点 。 它 可 以 只 复制 一 个 文 
件 中 变化 过 的 内 容 ， 而 不 必 整 个 文件 都 复制 ， 这 在 同步 大 文件 的 时 候 非常 管用 。 
其 实 FTP 工具 也 是 一 个 很 好 的 远程 文件 复制 工具 ， 只 不 过 不 能 做 到 更 加 灵活 和 强大 
而 已 。 
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1622 ”远程 磁盘 ( 卷 ) 镜 像 


这 是 基于 块 的 远程 备份 。 即 通过 网 络 将 备份 的 块 数据 传输 到 异地 站 点 。 远 程 镜像 (远程 
实时 复制 ) 又 可 以 分 为 同步 复制 和 异步 复制 。 同 步 复 制 ， 即 主 站 点 接受 的 上 层 10 写 入 数据 ， 
必须 等 这 份 数据 成 功 的 复制 传输 到 异地 站 点 ， 并 写 入 成 功 之 后 ， 才 通报 上 层 10 成 功 消息 。 
异步 复制 ， 就 是 上 层 10 主 站 点 写 入 成 功 ， 即 向 上 层 通 报 成 功 ， 然 后 在 后 台 将 数据 通过 网 络 
传输 到 异地 。 前 者 能 保证 两 地 数据 的 一 致 性 ， 但 是 对 上 层 响应 较 慢 。 而 后 者 不 能 实时 保证 
两 地 数据 的 一 致 性 ， 但 是 对 上 层 响 应 很 快 。 

所 有 基于 块 的 备份 措施 ， 一 般 都 是 在 底层 设备 上 进行 ， 而 不 耗费 主机 资源 。 

现在 几乎 各 个 盘 阵 三 家 的 中 高 端 产品 ， 都 提供 远程 镜像 服务 ， 比 如 IBM 的 PPRC, EMC 
的 SRDF，HDS 的 Truecopy，Netapp 的 SnapMirror 等 。 


16.2.3 块 ( 快 ) 照 数据 保护 


远程 镜像 ， 或 者 本 地 镜像 ， 确 实 是 对 生产 卷 数据 的 一 种 很 好 的 保护 ， 一 旦 生产 卷 故障 ， 
可 以 立即 切换 到 镜像 卷 。 但 是 这 个 镜像 卷 ， 一 定 要 保持 一 直 在 线 状态 ， 主 卷 有 写 I0 操作 ， 
那么 镜像 卷 也 有 写 10 操作 。 如 果 某 时 刻 想 对 整个 镜像 卷 进行 备份 ， 需 要 停止 读 写 主 卷 的 应 
用 ， 使 应 用 不 再 对 卷 产 生 10 操作 ， 然 后 将 两 个 卷 的 镜像 关系 分 离 ， 这 就 是 拆 分 镜像 。 

拆 分 之 后 ， 可 以 恢复 上 层 的 10。 由 于 拆 分 之 后 已 经 切 离 的 镜像 关系 ， 所 以 镜像 卷 不 会 
有 10 操作 。 此 时 的 镜像 卷 ， 就 是 主机 停止 10 那 一 刻 的 原 卷 数据 的 完整 镜像 ， 此 时 可 以 用 
备份 软件 ， 将 镜像 卷 上 的 数据 ， 备 份 到 其 他 介质 。 

拆 分 镜像 ， 是 为 了 让 镜像 卷 保持 拆 分 一 瞬间 的 状态 ， 而 不 再 继续 被 写 入 数据 。 而 拆 分 
之 后 ， 主 卷 所 做 的 所 有 写 10 动作 ， 会 以 bitmap 的 方式 记录 下 来 。bitmap 就 是 一 份 位 图 文 
件 ,文件 中 每 个 位 都 表示 卷 上 的 一 个 块 ( 扇 区 , 或 者 由 多 个 扇 区 组 成 的 逻辑 块 )， 如 果 这 个 块 
在 拆 分 镜像 之 后 ， 被 写 入 了 数据 ， 则 程序 就 将 bitmap 文件 中 对 应 的 位 从 0 变 成 1。 待 备份 
完成 之 后 ， 可 以 将 镜像 关系 恢复 ， 此 时 主 卷 和 镜像 卷 上 的 数据 是 不 一 致 的 ， 需 要 重新 做 同 
步 。 程 序 搜索 bitmap 中 所 有 为 1 的 位 ， 对 应 到 卷 上 的 块 ， 然 后 将 这 些 块 上 的 数据 ， 同 步 到 
镜像 卷 ， 从 而 恢复 实时 镜像 关系 。 

可 以 看 到 ， 以 上 的 过 程 是 十 分 复杂 繁琐 的 ， 而 且 需 要 占用 一 块 和 主 卷 相同 容量 大 小 的 
卷 作 为 镜像 卷 。 最 为 关键 的 是 ， 这 种 备份 方式 需要 停 掉 主机 10， 这 对 应 用 会 产生 影响 。 而 
“快照 技术 ”解决 了 这 个 难题 。 快 照 的 基本 思想 是 , 抓 取 某 一 时 间 点 磁盘 ( 卷 ] 上 的 所 有 数据 ， 
而 且 完 成 速度 非常 快 ， 就 像 照 相机 快门 一 样 。 

下 面 介绍 快照 的 底层 原理 。 


1. 基于 文件 系统 的 快照 


我 们 知道 , 文件 系统 管理 思想 的 精髓 就 在 于 它 的 链表 、B 树 和 位 图 等 结构 ， 也 就 是 元 数 
据 (metadata]， 以 及 对 这 些 元 数据 的 管理 方式 。 文 件 系统 其 实 对 底层 磁盘 是 有 点 “恐惧 ”的 ， 
我 们 可 以 计算 一 下 ， 一 个 100GB 的 磁盘 上 ， 有 超过 2 亿 个 扇 区 。 文 件 系 统 是 如 何 管理 这 2 
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亿 个 扇 区 ， 又 如 何 知 道 某 个 扇 区 正在 使 用 呢 ? 如 果 使 用 的 话 ， 是 分 配给 哪个 文件 或 者 文件 


的 一 部 分 呢 ? 
文件 系统 首先 将 扇 区 组 


合成 更 大 的 逻辑 块 来 降低 管理 规模 .NTFS 最 大 每 个 块 可 以 4KB， 


也 就 是 8 个 扁 区 一 组 形成 一 个 簇 ( 块 ，block)。 这 样 ，2 亿 的 管理 规模 便 会 除 8， 缩 小 到 1.2 
千 万 的 管理 规模 ， 虽 然 存储 空间 可 能 有 所 浪费 ， 但 是 切实 降低 了 管理 成 本 。 
其 次 ,文件 系统 会 创建 所 管理 存储 空间 上 所 有 人 簇 ( 块 ] 的 位 图 文件 ， 这 个 文件 有 固定 的 入 
， 文件 系统 能 在 1.2 千 万 个 块 中 快速 定位 到 这 个 文件 入 口 并 读 写 。 位 图 文件 中 每 个 位 代表 


卷 上 的 一 个 复 ( 或 者 物理 扇 区 ， 视 设计 不 同 而 决定 )， 如 果 艇 正在 被 某 个 文件 使 用 ， 这 个 艇 在 


位 图 中 对 应 的 位 的 值 就 为 1 


图 本 身 也 是 文件 ， 也 要 有 自 


, fW o. 


再 次 ,文件 系 统 还 保存 一 份 文件 和 其 所 对 应 簇 号 的 映射 链 ， 这 个 映射 链 本 身 以 及 入 位 


己 的 映射 链 ， 所 以 针对 这 些 重要 的 元 数据 ， 必 须 有 一 个 固定 的 


入 口 ， 用 来 让 文件 系统 程序 读 入 并 且 遍 历 所 有 文件 系统 元 数据 。 通 常 将 这 个 初始 固定 地 址 


入 口 称 为 rootinode。 

当 向 卷 中 写 入 一 个 新 文 
并 计算 所 需 的 空间 ， 然 后 分 
然后 再 去 文件 一 簇 号 映射 图 
位 图 中 将 这 些 簇 对 应 的 位 节 
链 中 抹 掉 对 应 的 文件 极 徐 的 


ME, 文件 系统 首先 会 查找 簇 位 图 ， 找 到 位 值 为 0 所 对 应 的 簇 号 ， 
配 这 些 簇 号 给 这 个 文件 。 它 首先 将 文件 实体 数据 写 入 对 应 的 艇 ， 
中 更 新 ， 将 新 文件 与 其 对 应 的 簇 映 射 关 系 记录 下 来 ， 最 后 到 入 
值 从 0 改 为 1。 如果 要 删除 这 个 文件 ， 则 直接 在 文件 的 簇 号 映射 
记录 ， 然 后 在 簇 位 图 中 将 对 应 艇 的 位 值 从 1 改 为 0。 


文件 系统 并 不 会 抹 掉 这 个 被 删除 文件 所 对 应 卷 上 的 簇 中 的 实际 数据 ， 如 果 用 扇 区 读 写 
软件 来 提取 这 个 徐 ， 就 会 得 到 这 个 文件 的 部 分 内 容 。 虽 然 这 些 筷 中 依然 有 内 容 ， 但 是 对 于 


文件 系统 来 说 ， 这 些 马 是 可 
的 数据 。 


重用 的 ， 一 旦 有 新 文件 写 入 ， 新 文件 的 数据 便 会 覆盖 原来 族 中 


所 以 ， 对 于 一 个 文件 系统 来 说 ， 最 重要 的 不 是 卷 禾 中 的 数据 ， 而 是 文件 一 筷 号 映射 链 


和 位 图 等 这 些 元 数据 。 比 刀 


， 想 要 破坏 某 个 文件 系统 中 的 某 个 文件 ， 我 们 不 必 费 劲 地 修改 


某 个 文件 对 应 筷 中 的 实际 内 容 ， 只 要 修改 一 下 文件 一 筷 号 映射 链 中 关于 这 个 文件 所 对 应 的 


KRR fino Rn], ibn 


这 样 ， 文 件 读 出 来 的 内 


指向 其 他 簇 号 。 
容 就 不 是 原 有 内 容 。 此 外 ， 如 果 修 改 了 文件 系统 中 对 应 簇 中 的 


数据 ， 文 件 系 统 也 根本 感知 不 到 这 些 动 作 ， 因 为 它 所 查询 的 是 文件 一 簇 号 映射 链 ， 它 只 知 


道 某 个 文件 对 应 着 哪些 簇 ， 


而 不 关心 这 些 簇 是 否 被 改过 ， 它 想 关 心 也 无 法 关心 。 


正 因为 文件 系统 只 是 根据 它 所 记录 的 这 些 映 射 图 表 来 管理 文件 ， 所 以 才 使 得 快照 成 为 


可 能 。 为 什么 呢 ? 


思 


如 果 我 们 想 抓 取 某 个 卷 在 某 一 时 刻下 的 全 部 数据 ， 就 可 以 像 照 相机 一 样 ， 对 一 
个 正在 移动 的 物体 实施 拍照 ， 菜 一 时 刻 ， 快 门 打开 ， 上 曝光 后 关闭 。 照 相机 可 以 


保存 在 底片 上 ， 但 照 下 的 数据 如 何 保存 呢 ? 


如 果 一 个 卷 上 有 100GB 容量 的 文件 , 照 下 来 之 后 , 用 另 一 块 磁盘 将 数据 全 部 拷贝 出 来 ， 
至 少 需要 20 分 钟 的 时 间 ， 且 在 这 段 时 间 内 ， 不 允许 再 有 任何 数据 被 写 入 这 个 卷 ， 因 为 我 们 
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要 抓 取 的 是 这 个 卷 在 这 个 时 刻 瞬 间 的 数据 。 

对 于 拍照 移动 中 的 物体 ， 要 想 保证 照片 清晰 没有 重 影 ， 就 要 降低 曝光 时 间 ， 但 是 曝光 
寺 间 越 短 ， 照 片 感光 度 就 会 越 低 ， 也 会 影响 质量 。 同 样 ， 对 于 一 个 正在 进行 频繁 10 写 入 的 
数据 卷 ， 要 照 下 它 某 时 刻 的 样子 ， 也 需要 减少 “上 曝光” 时间。 但 是 刚才 已 经 说 过 ，100GB 
的 数据 ， 拷 贝 出 来 需要 20 分 钟 时 间 ， 这 个 “曝光 ”时 间 太 长 了 。 要 么 物体 在 拍摄 的 时 候 保 
持 静 止 (拷贝 卷 的 时 候 停止 I0)， 要 么 就 减少 曝光 时 间 ( 加 快 拷 贝 速度 )， 这 两 样 ， 我 们 一 样 也 
保证 不 了 ， 因 为 停止 10 会 直接 影响 上 层 应 用 ， 而 且 也 无 法 在 几 秒 钟 (应 用 停止 10 可 接受 的 
才 间 内 )] 之 内 将 100GB 的 数据 拷贝 出 来 。 难 道 就 真 的 没有 办 法 了 么 ? 非 也。 


Pg | 如 果 我 们 只 花 几 秒 甚至 1 秒 钟 的 时 间 ， 把 菜 时 刻 的 文件 系统 中 的 映射 图 表 ， 以 
及 下 级 链表 等 元 数据 复制 出 来 并 保存 ， 那 么 是 不 是 就 可 以 说 ， 我 们 照 下 了 这 个 
FH 名 时 间 点 处 卷 上 的 所 有 数据 呢 ? 


绝对 是 的 。 因 为 文件 系统 只 根据 这 些 映 射 图 来 对 应 卷 上 的 实际 数据 ， 所 以 只 要 有 了 了 映 
图 ， 就 可 以 按 图 索 又 ， 找 到 并 拥有 实际 的 数据 。 但 是 ， 将 此 时 刻 的 映射 图 拷贝 出 来 ， 我 
门 也 只 得 到 了 一 个 图 纸 而 已 ， 因 为 实际 数据 在 卷 上 ， 是 实 实在 在 的 物理 卷 ， 而 不 是 在 图 纸 
-， 所 以 我 们 必须 保证 卷 上 的 数据 不 被 10 写 入 ， 而 同时 又 不 能 影响 应 用 ， 既 然 不 能 影响 应 
， 就 要 让 TO 继续 执行 ， 这 简直 是 个 大 大 的 矛盾 啊 ! 


> 


E 原 块 不 能 被 写 入 新 数据 ， 这 个 绝对 要 保证 ， 否 则 这 张 “照片 ”就 花脸 了 ， 而 同 
考 时 应 用 的 IO 也 必须 要 持续 不 断 的 执行 ( 写 入 )， 既 然 原 块 不 让 写 入 了 ， 那 能 不 能 
写 入 到 其 他 空闲 的 地 方 呢 ? 


当然 可 以 ! 每 当 遇 到 需要 向 原 卷 写 入 新 文件 或 者 更 新 旧 文件 ， 文 件 系统 便 将 这 些 更 新 
数据 写 入 一 个 新 的 空闲 的 地 方 去 ， 然 后 在 它 的 映射 图 中 加 入 对 应 的 条 目 。 由 于 我 们 已 经 保 
存 了 原来 的 映射 图 ， 而 且 也 拥有 一 份 不 让 写 入 的 原 卷 实体 数据 ， 所 以 不 怕 它 修改 。 文 件 系 
统 当前 的 映射 图 (元 数据 ) 始 终 描述 的 是 当前 的 映射 关系 。 这 样 ， 应 用 继续 执行 10， 同 时 ， 
我 们 也 可 以 将 照 下 来 的 原 卷 数据 拷贝 出 去 ， 从 而 得 到 一 份 某 时 刻 的 瞬间 的 卷 数据 。 我 们 完 
全 可 以 选择 不 拷贝 这 份 快照 ， 就 让 他 留 在 那 ， 因 为 快照 根本 不 占用 额外 的 空间 ， 除 非 针 对 
这 个 卷 有 新 的 10 写 入 ， 则 新 簇 会 写 向 其 他 地 方 ， 从 而 占用 相应 大 小 的 空间 ,一旦 原 卷 所 有 
秘 都 被 更 新 了 ， 那 么 也 就 意味 着 在 空闲 空间 内 逐渐 生成 了 一 个 完整 的 新 卷 了 ， 其 占用 与 原 
卷 相同 大 小 的 空间 。 
图 16.1 所 示 为 快照 的 示意 图 。 当 前 的 文件 系统 指针 图 和 快照 中 的 指针 图 ， 在 原 块 没有 
被 覆盖 的 时 候 ， 是 指向 同一 位 置 的 ， 一 旦 原 块 有 写 10 执行 ， 则 这 个 块 会 被 写 到 其 他 空闲 块 
或 者 其 他 卷 ， 而 将 当前 活动 文件 系统 对 应 指针 指向 这 个 新 块 ， 其 他 指针 不 变 。 后 面 我 们 会 
讲 到 两 种 管理 快照 块 的 方式 。 
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(a) (b) (c) 
16.1 快照 示意 图 


| 它 只 将 根 inode 拷贝 并 保存 ， 而 不 保存 下 级 链表 inode, 之 所 以 敢 这 么 做 的 原因 ， 
HERAA WAFL 从 来 不 会 覆盖 写 入 某 个 文件 对 应 的 旧 块 。 不 管 是 元 数据 还 是 实体 
数据 ，WAFL 统统 写 入 到 卷 的 空闲 块 上 ( 根 节点 inode 映射 图 位 置 恒定 ， 每 次 更 
新 会 覆盖 写 )。 这 样 ， 在 只 复制 了 跟 节点 inode 之 后 ， 由 于 下 级 链表 inode 均 不 
会 被 履 写 ， 所 以 同样 可 以 保存 瞬间 的 snapshot。 其 他 的 快照 实现 方式 ， 一 般 都 
将 所 有 inode 复制 并 保存 ， 因 为 它们 的 inode 都 是 恒定 位 置 的 ， 只 能 全 部 履 写 。 


B 公司 的 WAFL 文件 系统 利用 的 快照 方式 ， 是 很 有 特色 的 。 每 次 快照， 


2. 基于 物理 卷 的 快照 

基于 物理 卷 的 快照 ， 相 当 于 给 物理 卷 增 加 了 一 个 “ 卷 扇 区 映射 管理 系统 ”。 我 们 知道 ， 
卷 扇 区 应 当 是 由 文件 系统 来 组 织 和 管理 的 ， 但 是 为 了 减轻 文件 系统 负担 ， 人 们 在 底层 卷 这 
个 层次 实现 快照 。 卷 扇 区 都 是 用 LBA 来 编号 的 ， 实 现 快照 的 时 候 ， 程 序 首先 保留 一 张 初始 
LBA 表 ， 每 当 有 新 的 写 入 请 求 的 时 候 ， 程 序 将 这 些 请 求 的 数据 ， 写 入 另 一 个 地 方 (一 般 是 一 
个 新 卷 ， 专 为 快照 保留 的 )]， 并 在 初始 LBA 表 中 做 好 记录 ， 比 如 : 

原始 LBA: 卷 A 的 10000 号 ， 映 射 到 LBA: 卷 B 的 100 号 

以 上 映射 条 目的 产生 , 是 由 于 有 10 请 求 写 入 数据 到 卷 A 的 10000 号 LBA, 由 于 做 了 快 
照 , 卷 A 在 这 个 快照 被 删除 之 前 不 允许 写 入 , 所 以 将 这 个 写 入 请 求 的 数据 , 重 定 向 写 到 卷 B 
的 100 号 LBA 扇 区 上 。 值 得 说 明 的 是 ,文件 系统 不 会 感知 到 这 个 重 定向 动作 ，FS 在 它 的 映 
射 图 中 依然 记录 了 卷 A 的 10000 号 LBA 地 址 而 根本 不 知道 还 有 个 卷 B。 

此 时 ， 如 果 文 件 系 统 生 成 了 一 个 I0 请 求 读 取 ， 或 者 写 入 卷 A 的 10000 号 LBA ME, 
那么 运行 在 卷 层 的 快照 程序 便 会 查找 快照 重 定 向 映射 表 , 发 现 卷 A 的 10000 号 LBA 其 实 已 
经 被 重 定向 到 了 卷 B 的 100 号 ， 然 后 读 取 或 者 写 入 卷 B 的 100 号 扇 区 。 由 于 每 次 10， 程 序 
均 会 查找 这 份 快照 映射 表 ， 所 以 增加 了 处 理 时 间 ， 降 低 了 一 些 性 能 。 这 种 方式 称 为 Write 

思 是 重 定向 写 ， 也 就 是 将 更 新 的 数据 写 入 另 一 个 地 方 ， 原 卷 数 据 丝毫 不 动 ， 用 

定向 的 地 址 。 在 利用 Write Redirect 方式 做 了 快照 之 后 , 针对 随后 的 每 个 
针对 这 个 卷 的 上 层 10， 程 序 都 需要 查 表 确认 是 否 需要 重 定向 到 新 卷 〈 或 者 本 卷 为 快照 所 保 
留 的 空间 ) ， 这 种 做 法 对 性 能 是 有 较 大 影响 的 ， 为 此 ， 有 人 发 明了 另 一 种 方式 来 保存 快照 

快照 生成 之 后 ,如 果 上 层 有 针对 原 卷 某 个 或 者 某 些 自从 快照 之 后 从 来 未 被 更 新 过 的 LBA 


X 
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块 的 写 I0 请 求 ， 则 在 更 新 这 些 LBA 扇 区 之 前 ， 先 将 原来 扇 区 的 内 容 拷贝 出 来 ， 放 入 一 个 空 
闲 卷 ， 然 后 再 将 新 数据 写 入 原 卷 。 也 就 是 说 ， 旧 数据 先 占 着 位 置 ， 等 什么 时 候 新 数据 来 了 ， 
旧 数 据 再 让 位 ， 一 旦 原 卷 某 个 LBA 的 块 在 快照 之 后 被 更 新 过 了 ， 则 以 后 再 针对 这 个 LBA 
的 写 10， 可 以 直接 覆盖 ， 不 需要 提前 拷贝 ， 因 为 第 一 次 更 新 此 块 的 时 候 已 经 将 原 块 数据 
贝 保留 了 。 这 样 ， 原 卷 上 的 数据 随时 都 是 当前 最 新 的 状态 ， 所 以 针对 快照 之 后 的 每 个 上 
10， 不 必 再 遍历 映射 表 ， 直 接 写 向 原 卷 对 应 的 地 址 ， 如 果 是 写 入 一 个 快照 之 后 从 未 被 更 
过 的 块 ， 则 需 提前 将 原 块 拷贝 保留 ， 这 种 方式 称 为 “Copy On Write”， 写 前 拷贝 。 

在 “ 照 ” 下 了 这 一 时 刻 卷 上 的 数据 之 后 ， 为 了 保险 起 见 ， 最 好 对 那个 时 刻 的 数据 做 一 
个 备份 ， 也 就 是 将 快照 对 应 的 数据 复制 到 另外 的 磁盘 或 者 磁带 中 。 如 果 不 备 份 快照 ， 那 么 
一 旦 卷 数据 有 所 损毁 ， 快 照 的 数据 也 不 复 存 在 ， 因 为 快照 与 当前 数据 是 共享 LBA 扇 区 的 (如 
果 没 有 更 新 原 卷 扇 区 的 话 ] 。 

3. Write Rediret 方式 和 Copy On Write 方式 比较 

不 管 是 Copy On Write 还 是 Write Redirect， 只 要 上 层 向 一 个 在 快照 之 后 从 来 没 被 更 新 
过 的 扇 区 写 10, 这 个 10 块 就 要 占用 新 卷 上 的 一 个 块 (因为 要 保留 原 块 的 内 容 , 不 能 被 覆盖 )， 
如 果 上 层 将 原 卷 上 的 所 有 扇 区 块 都 更 新 了 ， 那 么 新 卷 的 容量 就 需要 和 原 卷 的 数据 量 同 样 大 
才 可 以 。 但 是 通常 应 用 不 会 写 覆 盖 面 百分之百 ， 做 快照 的 时 候 ， 新 卷 的 容量 一 般 设 置 成 原 
卷 容量 的 30% 就 可 以 。 

Copy On Write 方式 下 ， 快 照 完 成 之 后 ， 如 果 需 要 更 新 一 个 从 来 没有 被 更 新 过 的 块 ， 则 
程序 首先 将 这 个 块 读 出 ， 再 将 其 写 入 到 新 卷 ， 然 后 将 更 新 的 数据 覆盖 写 入 到 原 卷 对 应 的 块 ， 
需要 三 步 动 作 , 一 次 读 和 两 次 写 。Write Redirect 方式 下 , 同样 的 过 程 只 需要 一 次 写 入 即 可 ， 
即将 更 新 数据 直接 写 入 到 新 卷 , 同时 更 新 映射 图 中 的 指针 (内 存 中 进行 ]。 所 以 Write Redirect 
相对 Copy On Write 方式 在 IO 延迟 上 有 优势 。 但 是 Write Redirect 方式 下 ， 对 于 每 个 上 层 
10， 都 必须 遍历 一 下 映射 表 ， 以 便 确定 此 10 请 求 的 LBA 地 址 是 否 已 被 重 定向 到 新 卷 ， 而 
Copy On Write 方式 却 不 需要 遍历 这 张 表 ， 因 为 当前 最 新 的 数据 总 是 在 原 卷 上 。 在 卷 级 快照 
的 情况 下 ，Write Redirect 方式 会 有 劣势 。 在 文件 系统 级 快照 情况 下 ，Copy On Write 方式 
和 Write Redirect 方式 同样 都 要 针对 每 个 10 遍历 当前 文件 系统 中 的 元 数据 ， 这 部 分 开销 是 
一 样 的 ， 而 Write Redirec 耗费 10 方面 的 开销 ， 就 要 比 Copy On Write 小 得 多 了 。 

总 之 ， 卷 级 的 快照 ， 仿 佛 就 是 增加 了 一 个 “ 卷 块 映射 系统 ”， 其 作用 与 文件 系统 大 同 
小 异 ， 只 不 过 文件 系统 处 理 的 是 文件 名 和 块 的 映射 关系 ， 而 “ 卷 块 映 射 系统 ”处 理 的 是 块 
与 块 的 映射 关系 。 

4. 快照 的 意义 
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快照 所 冻结 下 来 的 卷 数 据 ， 无 异 于 一 次 意外 掉 电 之 后 卷 上 的 数据 。 为 什么 这 么 
说 呢 ? 


ri rich 


我 们 可 以 比较 一 下 ， 意 外 断 电 同样 是 保持 了 断 电 所 处 时 间 点 上 的 卷 数据 状态 。 
我 们 知道 ， 不 管 是 上 层 应 用 ， 还 是 文件 系统 ， 都 有 自己 的 缓存 ， 文 件 系统 缓存 的 是 文 
件 系统 元 数据 和 文件 实体 数据 。 并 不 是 每 次 数据 的 交互 ， 都 同步 保存 在 磁盘 上 ， 它 们 可 以 
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暂时 保存 在 内 存 中 ,然后 每 隔 一 段 时 间 (Linux 系统 通常 为 30 $5), 批量 Flush 到 磁盘 上 。 当 
然 编程 的 时 候 也 可 以 将 每 次 对 内 存 的 写 , 都 Flush 到 磁盘 , 但 是 这 样 做 效率 和 速度 打 了 折扣 。 
而 且 当 Flush 到 磁盘 的 时 候 ， 并 不 是 只 做 一 次 10， 在 数据 量 大 时 会 对 磁盘 做 多 次 10。 如 果 
快照 生成 的 时 间 恰 恰 在 这 连续 的 I0 之 间 生 成 , 那么 此 时 卷 上 的 数据 , 实际 上 有 可 能 不 一 致 。 
磁盘 10 是 原子 操作 (Atomic operation). Lie 事务 性 操作 ， 可 以 对 应 底层 的 多 
次 原子 操作 。 这 其 中 的 一 次 原子 操作 ， 没 有 业务 意义 ， 只 有 上 层 的 一 次 完整 的 事务 操作 ， 
才 有 意义 。 所 以 如 果 恰 好 在 一 个 事务 操作 对 应 的 多 个 原子 操作 的 中 间 ， 生 成 块 照 ， 那 么 此 
时 的 快照 数据 ， 就 是 不 完整 的 ， 不 一 致 的 。 

文件 系统 的 机 制 总 是 先 写 入 文件 的 实体 数据 到 磁盘 ， 文 件 的 元 数据 暂 不 写 到 磁盘 ， 而 
是 先 保存 于 缓存 中 。 这 种 机 制 是 考虑 到 一 些 意外 事件 ， 如 果 FS 先 把 元 数据 写 入 磁盘 ， 而 在 
准备 写 入 文件 实体 数据 的 时 候 ， 突 然 断 电 了 ， 那 么 此 时 磁盘 上 的 数据 是 这 么 一 个 状态 : FS 
元 数据 中 有 这 个 文件 的 信息 ， 但 是 实体 数据 并 没有 被 写 入 对 应 的 扇 区 ， 那 么 这 些 对 应 的 价 
尸 扇 区 上 原来 的 数据 ， 便 会 被 认为 就 是 这 个 文件 的 数据 ， 这 显然 后 果 不 堪 设想 。 

所 以 FS 一 定 是 先 写 入 文件 实体 数据 , 完成 之 后 再 批量 将 元 数据 从 缓存 中 Flush 到 磁盘 ， 
如 果 在 实体 数据 写 入 磁盘 ， 而 元 数据 还 没有 写 入 磁盘 之 前 断 电 ， 那 么 虽然 此 时 文件 实体 数 
据 在 磁盘 上 ， 但 是 元 数据 没有 在 磁盘 上 ， 也 就 是 说 虽然 有 你 这 个 人 存在 ， 但 是 你 没有 身份 
证 ， 那 么 你 就 不 能 公开 的 进行 社会 活动 ， 因 为 你 不 是 这 个 国家 的 公民 。 虽 然 文件 系统 这 么 
做 ,会 丢失 数据 ， 但 是 总 比 向 应 用 提交 一 份 驴 层 不 对 马 嘴 的 数据 强 ! 
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Fa | 实验 : RF Windows Rit, i cel IX, FERAH, 2E 
A | 重启 之 后 ， 会 发 现 刚才 创建 的 文件 没 了 ， 或 者 复制 一 个 文件 ， 完 成 后 立即 断 电 ， 
二 -二 重启 之 后 也 会 发 现 ， 复 制 的 文件 不 见 了 ， 为 什么 ?明明 创建 好 的 文件 ， 复 制 好 
的 文件 ， 为 什么 断 电 重启 就 没 了 呢 ? 原因 很 简单 ， 因 为 断 电 的 时 候 ，FS 还 没有 
把 元 数据 Flush 到 磁盘 上 ， 你 就 给 断 电 了 ， 此 时 文件 实体 收据 虽然 还 在 ， 但 是 
元 数据 中 没有 ， 那 么 当然 看 不 到 它 了 。 


总 之 ， 快 照 极 有 可 能 生成 一 份 存在 不 一 致 的 卷 数据 。 既 然 这 样 为 何 还 要 使 用 快照 呢 ? 
因为 相对 于 停机 备份 ， 人 们 更 接受 使 用 快照 来 备份 数据 ， 即 使 快照 可 能 带 来 数据 不 一 致 。 
但 停机 备份 所 带 来 的 损失 ， 对 于 某 些 关键 应 用 来 说 是 不 可 估量 的 ， 而 快照 只 需要 几 秒 钟 即 
可 完成 ， 应 用 只 需 静 默 几 秒 钟 的 时 间 。 文 件 系 统 或 者 卷 擅自 将 10 先 存 放 到 队列 中 ， 等 待 快 
照 完成 后 ， 再 继续 执行 。 然 后 可 以 随时 将 这 份 快照 对 应 的 数据 拷贝 出 来 ， 形 成 备份 。 

使 用 快照 必须 承担 数据 不 一 致 的 风险 。 也 可 以 这 么 形容 ;快照 可 以 让 你 不 用 “意外 磁 
盘 掉 电 ”， 就 能 获得 一 个 时 间 点 瞬间 磁盘 备份 ， 虽 然 数据 此 时 是 不 一 致 的 。 快 照 可 以 任意 
生成 ， 而 占用 的 空间 又 不 会 很 大 ( 随 原 卷 数 据 改 动 多 少 而 定 )， 最 重要 的 是 , 利用 快照 可 以 做 
在 线 快速 恢复 ， 只 要 快照 没 删除 ， 恢 复 也 同样 仅仅 需要 几 秒 钟 时 间 ， 与 快照 生成 的 道理 一 
样 ， 不 用 停机 。 因 为 利用 快照 恢复 数据 的 时 候 ， 只 要 在 内 存 中 作 一 下 10 重 定向 ， 那 么 上 层 
10 访问 的 ， 就 立即 变 成 了 以 前 时 间 点 的 数据 了 。 这 就 是 快照 最 大 的 意义 。 

快照 可 能 不 一 致 这 个 问题 ， 也 不 是 不 能 解决 。 既 然 快照 无 异 于 一 次 磁盘 掉 电 ， 那 么 ， 
利用 快照 恢复 数据 之 后 ， 文 件 系统 可 以 进行 一 致 性 检查 从 而 纠正 错误 。 数 据 库 管 理 系统 
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同样 会 利 


其 日 志 来 使 得 数据 文件 最 终 出 于 一 致 状态 。 


成 快照 ， 这 样 
对 于 文件 


另外 ， 有 些 快 照 的 解决 方案 ， 是 在 主机 上 安装 一 个 代理 软件 ， 当 在 存储 设备 上 执行 快 
照 之 前 , 代理 软件 会 通知 应 用 或 者 文件 系统 将 缓存 中 的 数据 全 部 Flush 到 磁盘 , 然后 立即 生 


快照 的 一 致 性 就 得 到 了 保护 。 
系统 级 的 快照 ， 应 用 程序 可 以 直接 在 操作 系统 中 看 到 快照 ， 可 以 直接 读 取 这 


份 快照 中 的 文件 。 而 对 于 卷 级 的 快照 ， 只 有 存储 设备 自己 可 以 管理 ， 操 作 系统 对 此 一 无 


所 知 。 
对 卷 做 快 
要 么 原 地 锁 住 
空间 都 要 被 额 
然而 ， 妇 
要 写 前 拷贝 或 
多 个 快照 。 


照 之 后 , 一 旦 原先 的 数据 块 被 更 改 /覆盖 , 则 这 些 块 要 么 在 写 入 前 被 拷贝 出 来 ， 
不 动 ， 新 数据 重 定向 写 到 空闲 区 域 。 总 之 ， 这 两 种 情况 下 ， 系 统 内 整体 空余 
外 数据 占用 而 减 小 。 
果 对 某 个 块 进行 二 次 更 改 /覆盖 ， 则 可 以 直接 在 这 些 新 块 之 上 进行 操作 而 不 需 
者 再 次 重 定 向 写 入 ， 除 非 在 第 一 次 更 改 / 覆 盖 和 第 二 次 之 间 又 创建 了 一 个 或 者 


为 ? 删除 原 块 对 应 的 行为 其 实 是 在 文件 系统 的 inode tree 中 将 对 应 的 指针 消除 ， 


Dioses imas 在 已 经 做 了 快照 的 情况 下 ， 系 统 将 作出 什么 行 
B 表现 为 更 改 /覆盖 对 应 inode 所 在 的 块 ， 所 以 不 管 删除 多 大 的 文件 ， 也 只 有 对 应 


的 inode 块 被 更 改 /覆盖 ， 被 删除 数据 依然 存在 于 磁盘 上 ， 然 而 这 些 数据 对 应 的 


块 在 


当前 活动 文件 系统 下 的 灸 位 图 中 已 经 被 标记 为 空闲 块 了 ， 此 时 一 旦 又 有 新 


数据 被 追加 写 入 到 这 些 空闲 块 ， 那 么 依然 会 被 重 定向 或 者 写 前 拷贝 。 


使 用 快照 功能 之 前 必须 首先 评估 数据 源 I0 行为 ， 随 着 覆盖 写 入 几率 的 增加 ， 系 统 中 可 
间 的 数量 也 要 随 之 增加 。 实 际 情况 中 ， 文 件 被 覆盖 写 入 的 几率 一 般 不 高 ， 比 


使 用 的 空闲 从 


较 高 的 是 Create+Write, Delete, Rename, Open, Read, Truncate, Append 等 操作 ， 其 
中 Delete, Rename, Truncate 操作 会 导致 Snapshot 占用 额外 空间 ， 而 这 其 中 Delete A 
Truncate 会 导致 被 删除 文件 本 身 与 其 inode 的 block 都 占用 额外 空间 ，Rename 只 会 导致 天 
应 inode block 占用 额外 空间 。Create+Write 操作 如 果 一 旦 覆盖 了 旧 块 ， 那 么 同样 也 会 占 


额外 空间 。 
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目前 几乎 所 有 厂商 的 存储 产品 都 可 以 实现 快照 ， 这 似乎 成 了 一 个 不 成 文 的 行业 

标准 ,不 能 实现 快照 的 产品 无 法 在 市 场 上 生存 。 目前 市 场 上 也 有 很 多 基于 NTFS 
文件 系统 的 第 三 方 独立 快照 管理 软件 ， 例 如 《还 原 精灵 》 系 列 ， 以 及 《 雨 过 天 
上 晴 》 系 列 等 ， 它 们 都 是 非常 优秀 的 基于 NTFS 文件 系统 的 快照 管理 软件 。 这 些 
软件 的 作用 方式 一 般 是 将 自己 的 程序 入 口 写 入 MBR， 系 统 引 导 初 期 会 首先 加 
载 这 些 程 序 ， 关 机 之 后 始终 在 操作 系统 下 层 运行 ,这样 就 可 以 娃 无 忌 翌 的 接管 
操作 系统 对 NTFS 文件 系统 的 所 有 操作 。 在 这 个 基础 上 ， 程 序 可 以 实现 文件 系 
统 的 快照 以 及 管理 这 些 快照 。 目 前 《 雨 过 天 晴 》 提 供 7 天 的 试用 版 ， 感 兴趣 的 
朋友 可 以 下 载 试用 。 
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16.2.4 Continuous Data Protect(CDP， 连 续 数 据 保护 ) 


SNIA 对 于 CDP 给 出 了 一 个 定义 。CDP， 持 续 数据 保护 是 一 种 在 不 影响 主要 数据 运行 的 

前 提 下 ， 可 以 实现 持续 捕 提 或 跟踪 目标 数据 所 发 生 的 任何 改变 ， 并 且 能 够 恢复 到 此 前 任意 
[ 间 点 的 方法 。CDP 系统 能 够 提供 块 级 、 文 件 级 和 应 用 级 的 备份 。 

有 一 类 所 谓 的 Near CDP 产品 , 可 以 生成 高 频率 的 快照 , 比如 一 小 时 几 十 次 ， 上 百 次 等 。 
这 种 方法 来 保证 数据 恢复 的 粒度 足够 细 。 

CDP 是 这 样 一 种 机 制 ， 即 它 可 以 保护 从 某 时 刻 开始 ， 卷 或 者 文件 在 此 后 任意 时 刻 的 数 
据 状态 ， 也 就 是 数据 的 每 次 改变 ， 都 会 被 记录 下 来 ， 无 一 遗漏 。 这 个 机 制 乍 一 看 非常 神奇 ， 
其 实 它 的 底层 只 不 过 是 比 快照 多 了 一 些 考虑 而 已 ， 下 面 我 们 就 来 分 析 它 的 实现 原理 。 
文件 级 的 CDP 
顾名思义 ， 文 件 级 CDP 就 是 通过 调用 文件 系统 的 相关 函数 ， 监 视 文件 系统 动作 ， 文 件 
的 每 一 次 变化 ， 都 会 被 记录 下 来 。 这 个 功能 是 分 析 应 用 对 文件 系统 的 10 数据 流 ， 然 后 计算 
出 文件 变化 的 部 分 ， 将 其 保存 在 CDP 仓库 设备 (存放 CDP 数据 的 介质 ] 中 。 每 次 对 文件 的 改 
变 ， 都 会 被 记录 下 来 。 可 以 对 一 个 文件 ， 或 者 一 个 目录 ， 甚 至 一 个 卷 来 监控 。 文 件 级 的 CDP 
方案 ， 一 般 需 要 在 生产 主机 上 安装 代理 ， 用 来 监控 文件 系统 10， 并 将 变化 的 数据 信息 传送 
到 CDP 仓库 介质 中 。 文 件 级 的 CDP， 能 够 保证 数据 的 一 致 性 。 因 为 它 是 作用 于 文件 系统 层 
次 ， 捕 获 的 是 完整 事物 。 
块 级 的 CDP 
块 级 的 CDP， 就 是 捕获 底层 卷 的 写 10 变化 ， 并 将 每 次 变化 的 块 数 据 保存 下 来 。 这 里 不 
探讨 具体 产品 的 架构 ， 而 只 对 其 底层 原理 ， 作 一 个 细致 的 描述 。 

sg 
945 下 对 于 CDP 的 描述 引 自 教 青云 的 博客 (aoqingy.spaces.live.com)。 


示 
EE, 


m 


E: 


CDP 起 源 于 Linux 下 的 CDP 模块 。 它 持续 地 捕获 所 有 1/0 请 求 ， 并 且 在 这 些 请 求 打上 
时 间 蕉 标志 。 它 将 数据 变化 以 及 时 间 蕉 保存 下 来 ， 以 使 恢复 到 过 去 的 任意 时 刻 。 

在 Linux 的 CDP 实现 中 ， 包 含 下 列 三 个 设备 。 

e ”主机 磁盘 设备 (host disk). 

e CDP 仓库 设备 (repository)。 

e CDP 元 数据 设备 (metadata)。 

CDP 代码 对 主机 磁盘 设备 在 任意 时 刻 所 作 的 写 操作 都 会 记录 下 来 ， 将 实体 数据 按 顺 序 
写 入 CDP 仓库 设备 中 ， 对 于 这 些 实体 数据 块 的 描述 信息 ， 则 被 写 入 到 CDP 元 数据 设备 的 对 
应 扇 区 。 
元 数据 包含 以 下 信息 : 
struct metadata ( 


int hrs, min, sec; 该 数据 块 被 写 入 主机 磁盘 设备 的 时 间 
unsigned int bisize; 该 数据 块 以 字 节 为 单位 的 长 度 
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sector t CDP sector; CDP 仓库 设备 中 对 应 数据 块 的 起 始 扇 区 编号 
sector t host sector; 该 数据 块 在 主机 磁盘 设备 中 的 起 始 扇 区 编号 
) 


图 16.2 反映 了 主机 磁盘 设备 和 CDP 仓库 设备 之 间 的 关系 。CDP 仓库 设备 中 按时 间 顺 序 
保存 了 对 主机 磁盘 设备 的 数据 修改 。A 为 主机 磁盘 设备 上 的 一 个 肩 区 , 该 扇 区 在 9:00 和 9:05 
分 别 进行 了 修改 ， 它 在 CDP 仓库 设备 中 对 应 的 扇 区 分 别 为 AL 和 A2. 


16.2 CDP 仓库 与 主机 磁盘 设备 间 的 关系 


图 16.3 反映 了 CDP 仓库 设备 和 CDP 元 数据 设备 之 间 的 关系 。 它 们 的 写 入 顺序 一 一 对 
应 。CDP 仓库 设备 中 的 一 个 元 数据 ， 对 应 CDP 元 数据 设备 中 一 个 1/0 请 求 ， 实 际 上 可 能 是 
多 个 扇 区 。 有 具体 扇 区 数 由 元 数据 中 的 bisize 指定 ， 而 起 始 扇 区 位 置 由 CDP_sector 指定 。 


LE A| 


B6 CDP 仓库 设备 与 CDP 元 数据 设备 间 的 关系 
全 局 变量 maddr 保存 了 下 一 个 1/0 请 求 ， 在 CDP 仓库 设备 上 执行 的 地 址 (起 始 扇 
^j). maddr 的 初 值 被 定义 为 宏 START_METADATA(0) 。 
unsigned int maddr = START METADATA; 


当 一 个 写 请 求 到 来 时 ， 对 应 数据 被 写 到 CDP 仓库 设备 中 ， 这 时 所 做 的 操作 如 下 。 
1] 将 写 入 CDP 仓库 设备 的 数据 块 起 始 扁 区 编号 设置 为 maddr。 
2] 根据 要 写 入 主机 磁盘 设备 的 数据 块 的 扇 区 数目 增加 maddr。 
这 时 , 用 户 要 将 这 里 写 入 CDP 仓库 设备 的 数据 块 编号 记录 下 来 ， 以 便 构造 对 应 的 元 数据 。 
全 局 变量 taddr 保存 了 下 一 个 1/0 请 求 ， 对 应 的 元 数据 ， 在 CDP 元 数据 设备 中 保存 的 
地 址 (起 始 扇 区 编号 )。 taddr 的 初 值 被 定义 为 宏 START_METADATA(0)。 


unsigned int taddr = START METADATA; 


当 一 个 写 请 求 到 来 时 ， 对 应 的 元 数据 被 记录 在 CDP 元 数据 设备 中 。 
为 了 简单 起 见 ， 在 元 数据 设备 上 ， 一 个 扇 区 (512 字 节 ] 只 保存 一 个 元 数据 信息 (只 有 32 


x 
E 
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字 节 ]， 这 样 浪费 了 大 量 的 存储 空间 ， 但 对 元 数据 设备 的 处 理 却 非常 简单 。 
1] 将 写 入 CDP 元 数据 设备 的 元 数据 起 始 扇 区 编号 设置 为 taddr， 长 度 为 1 个 扁 区 。 
2] 将 taddr 增加 1, 
3] 请 求 处 理 过 程 。 

请 求 处 理 过 程 是 从 make_request 函数 开始 的 。 考 虑 到 读 请 求 处理 的 相似 性 ， 甚 至 更 为 
简单 。 这 里 只 分 析 对 写 请 求 的 处 理 过 程 。 首先 获得 当前 的 系统 时 间 , 然后 写 请 求 bio 结构 (为 
便于 说 明 这 里 记 为 B) 被 分 为 三 个 写 请 求 bio 结构 [分别 为 B0、B1 和 B2)， 如 图 16.4 所 示 。 
这 三 个 bio 结构 的 作用 是 。 

e BO: 将 数据 块 写 到 主机 磁盘 设备 。 

e B1: 将 数据 块 写 到 CDP 仓库 设备 。 

e B2: 将 元 数据 写 到 CDP 元 数据 设备 。 


Ww ae ma 
i bay d 


16.4 ”三 个 写 请 求 bio 结构 


同 其 他 块 设备 驱动 程序 的 实现 一 样 。 从 B 复制 产生 B0、B1 和 B2。 然 后 重 定向 它们 要 
处 理 的 设备 ， 即 bi bdev 域 。 另 外 一 个 大 的 变动 是 重新 设置 了 bi end. io 域 ， 用 于 在 1/0 请 
求 完成 之 后 进行 善后 处 理 。 

为 了 处 理 善 后 , 还 要 将 BO. B1 和 B2 的 bi private 指向 同一 个 CDP. bio1 结构 。 从 这 个 
结构 能 够 回 到 对 B 的 处 理 。 

Struct CDP_bio { 

struct bio *master bio; 原来 的 bio， 通 过 这 个 域 用 户 可 以 从 B0、B1、B2 找到 B 

struct bio *bios[3]; 如 果 IO 为 WRITE， 这 个 指针 数组 分 别 指向 B0、B1l1、B2， 为 何 需 要 这 

个 域 ? 

atomic t remaining; 这 是 一 个 计数 器 ， 在 后 面 会 解释 。 

unsigned long state; 在 I/0 完成 方法 中 使 用 


善后 工作 的 主要 目的 是 在 BO.B1 和 B2 都 执行 完成 后 ,回去 执行 B, 为 此 需要 一 个 “have 
we finished ”计数 器 ， 这 就 是 原子 整 型 变量 remaining。 在 构造 BO, B1, B2 时 分 别 递增 ， 
同时 在 BO. B1 和 B2 的 1/0 完成 方法 中 递减 ， 最 后 根据 该 值 是 否 递减 到 0， 来 判断 BO. B1 
和 B2 是 否 都 已 经 执行 完毕 。 为 了 防止 BO 在 构造 后 ， 在 B1 B2 构造 之 前 就 执行 到 BO 的 
1/0 完成 方法 ， 从 而 使 得 remaining 变 成 0 这 种 错误 情况 。 我 们 没有 将 remaining 的 初 值 设 
置 为 0， 而 是 设 为 1。 并 在 B0、B1、B2 都 构造 完成 执行 递减 一 次 。 

BO. B1. B2 都 执行 完成 之 后 ， 进 行 如 下 的 处 理 。 

11 调用 B 的 善后 处 理 函数 。 
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2] 释放 期 间 分 配 的 数据 结构 。 
3】 向 上 层 buffer cache 返回 成 功 /错误 码 。 


Vg B2 的 构造 ， 这 个 bio 结构 需要 处 理 的 是 元 数据 。 时 间 蕉 已 经 在 进入 

示 (make request 时 获得 了 保存 ， 而 对 主机 磁盘 设备 操作 的 起 始 扇 区 和 长 度 从 了 中 

cO: 可 以 获得 ， 对 应 的 CDP 仓库 和 CDP 元 数据 的 起 始 地 址 分 别 保存 在 全 局 变量 
maddr 和 taddr 中 。 


数据 恢复 过 程 
用 户 可 以 将 数据 恢复 到 以 前 的 任意 时 刻 。CDP 实现 代码 中 提供 了 一 个 blk_ioctl 函数 ， 
用 户 空间 以 GET TIME 为 参数 调用 该 函数 ， 将 主机 磁盘 设备 中 的 数据 恢复 到 指定 的 时 间 点 。 
恢复 的 过 程 分 为 以 下 几 个 步骤 。 
11 顺序 读 取 CDP 元 数据 设备 的 所 有 扇 区 ， 构 造 一 个 从 主机 磁盘 设备 数据 块 ， 到 CDP 
仓库 设备 的 (在 这 个 时 间 点 之 前 ) 更 新 数据 块 的 映射 。 其 结果 保存 在 以 mt home 为 
首 的 (映射 表 ) 链 表 中 。 如 图 16.5 所 示 。 


metadata Thrsmin sec) struct list head mi home; MAM 
1 [ viaze mum 
' struct mapping 'tsble (IRANRA 
i Sector struct metadata *roetadate2; 
1 struct list head list, 
i - h 


metadata? |^ | metadata2 


mi nne 
mev [nea f prev | nes prev [net [一 


图 16.5_cDP 恢复 过 程 
这 里 需要 构造 taddr 个 对 CDP 元 数据 设备 的 读 请 求 ， 每 个 请 求 读 取 一 个 扇 区 。 在 
这 些 请 求 的 1/0 完成 方法 中 ， 从 读 到 的 数据 中 构造 元 数据 ， 并 递减 计数 器 count, 
如 果 元 数据 中 的 时 间 戳 早 于 或 等 于 指定 的 恢复 时 间 点 ， 则 需要 添加 或 修改 
mt_home 链表 的 元 数据 结构 。 


EE 可 这 些 项 是 以 host, sector 为 关键 字 索 引 的 ， 因 此 添加 或 修改 取决 于 前 面 是 否 出 现 对 
示 | 同一 个 host. sector 的 修改 。 在 以 顺序 方式 读 取 的 过 程 中 , 可 以 保证 host_sector( 在 
二 地 指定 的 恢复 时 间 点 之 前 ) 的 最 新 修改 CDP_sector 会 出 现在 这 个 链表 中 。 


us) 


由 于 计数 器 count 为 taddr， 如 果 它 递减 为 0， 说 明 CDP 元 数据 设备 中 的 所 有 数据 
均 已 读 出 并 处 理 ， 这 时 就 可 以 继续 往 后 面 执行 。 

21 从 CDP 仓库 设备 中 读 取 这 些 更 新 的 数据 块 ， 构 造 以 mt bi home 为 首 的 链表 。 
同上 面 的 处 理 类 似 ， 我 们 需要 为 mt home 链表 中 的 每 一 项 构造 对 CDP 仓库 设备 的 
读 请 求 ， 每 个 请 求 在 CDP 仓库 设备 的 起 始 编号 取决 于 CDP_sector 域 ， 长 度 则 根据 
bisize 而 定 。 这 个 请 求 读 出 的 数据 需要 被 写 入 到 主机 磁盘 设备 中 , 为 此 在 读 请 求 1/0 
完成 函数 中 ， 构 造 一 个 对 应 的 往 主 机 磁盘 设备 的 写 请 求 bio， 该 写 请 求 的 起 始 编号 
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取决 于 host_sector 域 ， 长 度 根据 bisize 而 定 ， 而 要 写 入 的 数据 是 刚刚 从 CDP 仓库 
设备 中 读 出 的 数据 。 另 外 ， 在 读 请 求 /0 完成 函数 中 ， 还 要 递减 一 个 计数 器 ， 当 该 
计数 器 递减 到 0 时 ,说明 用 户 已 经 全 部 处 理 了 mt home 链表 中 的 项 ， 这 时 会 得 到 
-个 以 mr bio home 为 首 ， 每 项 中 都 指向 一 个 bio 结构 的 链表 。 

struct list head mt home; //BIO 更 新 链表 
struct most recent blocks ( //BIO 更 新 表 项 

struct bio *mrbio; 

struct list head list; 
m 

3] 将 mt pi home 链表 的 数据 块 都 恢复 到 主机 磁盘 设备 中 。 

这 个 操作 相对 比较 简单 ， 用 户 只 需要 在 主机 磁盘 设备 上 ， 执 行 mt bi home 链表 的 
每 一 个 bio 请 求 项 即 可 。 当 然 还 要 在 这 些 请 求 项 的 1/0 完成 方法 中 做 善后 处 理 ， 即 
如 果 所 有 请 求 项 都 已 经 执行 完毕 ， 则 释放 mt_home 链表 和 mt_bi_home 链表 。 


16.3 ”数据 备份 系统 的 基本 要 件 


e 备份 主体 : 是 指 需要 对 其 进行 备份 的 备份 源 ， 比 如 一 台 服 务 器 上 某 块 磁盘 上 的 所 
有 数据 ， 或 者 某 数据 库 下 所 有 数据 文件 ， 这 些 都 算 备份 主体 。 

e AU HI: 是 指 将 备份 主体 的 数据 备份 到 何 处 。 备 份 目的 可 以 是 备份 主体 本 身 的 
磁盘 、 磁 带 等 介质 ， 也 可 以 是 任何 其 他 地 点 的 磁盘 、 磁 带 机 、 磁 带 库 等 介质 。 如 
果 备 份 目 的 位 于 备份 主体 本 身 ， 比 如 ， 从 一 台 Windows 服务 器 的 D 盘 复 制 某 些 文 
件 到 自身 的 E 盘 ， 则 不 需要 占用 任何 网 络 资源 ， 因 为 数据 从 备份 主体 自身 生成 ， 
到 自身 结束 。 如 果 备 份 目的 位 于 其 他 地 点 ， 比 如 同一 个 机 房 内 的 其 他 服务 器 ， 或 
者 外 部 独立 磁盘 阵列 ， 则 数据 从 备份 主体 生成 ， 传 输 到 备份 目的 的 过 程 中 ， 就 需 
要 占用 网 络 资源 ， 因 为 连接 备份 主体 和 备份 目的 的 只 有 网 络 ， 稍 后 将 会 详细 介绍 

用 哪 种 网 络 。 

e ”备份 通路 :也 就 是 我 们 上 文 提 到 的 ， 如 果 备 份 主体 和 备份 目的 都 位 于 同一 个 角色 

上 上 ， 那 么 备份 通路 就 是 这 个 角色 自身 的 计算 机 总 线 ， 也 就 是 连接 这 个 角色 的 CPU. 

内 存 和 磁盘 的 总 线 ， 因 为 数据 只 在 这 个 总 线 上 流动 。 如 果 备 份 主体 和 备份 目的 处 

于 远离 状态 ， 则 二 者 必须 通过 某 种 网 络 连接 起 来 ， 而 这 个 网 络 就 是 这 个 备份 环境 

的 备份 通路 。 关 于 备份 通路 会 在 后 面 的 例子 中 详细 描述 。 

e ”备份 执行 引擎 有 了 备份 源 、 备 份 目的 和 连接 二 者 的 备份 通路 之 后 ， 需 要 一 个 引 
擎 来 推动 数据 从 备份 源流 到 备份 目的 。 这 个 引擎 ， 一 般 由 备份 软件 来 担任 。 

e 备份 策略 : 是 指 备份 引擎 的 工作 规则 。 引 擎 不 能 无 时 无 刻 的 运转 ， 它 需要 根据 设 
定好 的 规则 来 运转 。 

下 面 将 着 重 介绍 一 下 备份 目的 、 备 份 通路 和 备份 引擎 这 三 个 要 件 。 
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16.3.1 备份 目的 


1. 用 本 地 磁盘 作为 备份 目的 
本 地 磁盘 作为 备份 目的 ， 就 是 把 本 地 磁盘 上 待 备份 的 数据 ， 备 份 到 本 地 磁盘 其 他 的 


分 区 


全 局 限 在 备份 主体 自身 。 


磁盘 资源 。 读 出 后 写 入 内 存 ， 需 要 耗费 内 存 资源 ， 然 后 再 从 内 存 写 入 磁盘 的 其 他 分 区 ， 上 局 
样 需 要 耗费 磁盘 资源 。 备 份 执 行 期 间 ， 还 会 对 其 他 10 密集 型 的 程序 造成 极 大 影响 。 通 常 这 
种 方式 只 用 于 不 太 关键 的 应 用 和 非 10 密集 型 应 用 ， 以 及 对 实时 性 要 求 不 高 的 应 用 。E-mail 
服务 器 的 备份 就 是 典型 的 例子 ， 因 为 E-mail 转发 实时 性 要 求 不 高 ， 转 发 速度 慢 一 些 ， 对 用 


或 者 目录 。 用 这 种 方式 可 以 不 影响 任何 其 他 服务 器 以 及 共用 网 络 。 数 据 流动 的 范围 完 


但 是 这 样 做 的 缺点 就 是 对 备份 主体 自身 的 性 能 影响 大大， 数据 从 磁盘 读 出 ， 需 要 耗费 


户 造成 的 影响 也 不 会 很 大 。 


2. 用 SAN 磁盘 作为 备份 目的 
用 SAN 上 的 磁盘 做 备份 ， 就 是 把 备份 主体 上 需要 备份 的 数据 ， 从 本 地 磁盘 读 入 内 存 ， 


然后 从 内 存 中 写 入 连接 到 SAN 的 适配器 ,， BI HBA 卡 缓冲 区 ，HBA 卡 再 通过 线 缆 ， 将 数据 通 
过 SAN 网 络 传送 到 磁盘 阵列 上 。 


这 种 方式 的 优点 就 是 数据 从 本 地 磁盘 读 出 数据 ， 写 入 的 时 候 只 耗费 SAN 共用 网 络 带 宽 


资源 ， 而 且 能 获得 SAN 的 高 速度 ， 对 备份 主体 性 能 影响 相对 较 小 。 缺 点 是 对 公共 网 络 资源 


LIE: 
接 


阵 出 口 带宽 有 一 定 影响 ， 因 为 耗费 了 一 定 的 带宽 用 来 传输 数据 ， 同 时 数据 在 流向 盘 阵 
的 时 候 ， 也 要 占用 接口 带宽 。 
如 果 备 份 主体 数据 本 身 就 存放 在 SAN 上 的 磁盘 ， 而 备份 目的 同样 是 SAN 磁盘 ， 那 么 数 


据 流动 的 通路 是 比较 长 。 在 后 面 介绍 备份 通路 的 时 候 再 做 详细 阐释 。 


E 


3. 用 NAS 目录 作为 备份 目的 


用 NAS 作为 备份 目的 , 就 是 将 本 地 磁盘 上 的 数据 备份 到 一 个 远程 计算 机 的 共享 目录 中 。 
Windows 环境 下 常用 的 文件 夹 共享 ， 就 是 这 样 一 个 典型 的 例子 。 一 台 计 算 机 共享 一 个 


目录 ， 另 一 台 计 算 机 向 这 个 目录 中 写 入 数据 。 而 数据 一 般 是 通过 以 太 网 络 来 进行 传递 的 。 
这 种 方式 占用 了 前 端 网 络 的 带宽 ， 但 是 相对 廉价 ， 因 为 不 需要 部 署 SAN。 


带 机 


4. 用 SAN 上 的 磁带 库 作 为 备份 目标 


用 FC 接口 作为 外 部 传输 接口 的 设备 ， 不 仅仅 有 主机 上 的 HBA 适配器 、 磁 盘 阵 列 ， 磁 
和 磁带 库 也 可 以 用 FC 接口 作为 外 部 传输 接口 。 用 线 缆 连 接 磁 带 库 和 SAN 交换 机 之 后 ， 


处 于 SAN 上 的 所 有 主机 系统 便 会 识别 出 这 台 磁 带 库 设 备 ， 自 然 也 就 可 以 用 磁带 来 当 作 备 份 


目的 


T. 
磁带 库 ， 由 机 械 手 、 驱 动 器 、 磁 带 槽 组 成 。 图 16.6 和 图 16.7 分 别 为 某 型 号 磁带 库 的 外 


视图 
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和 某 型 号 磁带 库 的 内 视图 。 
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图 16.6_ 某 型 号 磁带 库 的 外 视图 图 16.7_ 某 型 号 磁带 库 的 内 视图 
磁带 驱动 器 是 磁带 库 的 核心 组 件 。 可 以 将 驱动 器 想象 成 一 个 电机 ， 带 动 磁带 旋转 ， 然 
后 磁头 贴 住 磁带 、 读 写 数据 ， 把 电机 、 磁 头 以 及 控制 电路 集合 到 一 起 ， 形 成 一 个 独立 的 模 
块 ， 就 是 驱动 器 。 
机 械 手 ， 在 机 械 生产 线 上 机 械 手 就 是 一 个 计算 机 夹子 而 已 ， 把 物品 从 一 个 地 方 移动 到 
男 一 个 地 方 ， 当 然 这 还 需要 程序 来 控制 。 而 且 像 图 16.7 中 所 示 的 一 样 ， 机 械 手 不 一 定 就 是 
那 种 铁 臂 抓 手 ， 而 只 要 它 能 寻找 磁带 槽 上 的 磁带 并 将 其 推 入 磁带 驱动 器 ， 就 可 以 称 其 为 机 
械 手 。 
磁带 库 的 工作 流程 如 下 
1] ”由 机 械 和 手臂 从 磁带 槽 中 夹 取 一 盘 磁 带 ， 推 入 磁带 驱动 器 ， 驱 动 器 完成 倒 带 、 读 写 
等 动作 。 
2] 读 出 完成 后 ， 退 带 ， 机 械 手 臂 夹 取 磁 带 ， 放 回 磁带 槽 ， 然 后 夹 取 另 一 盘 磁 带 放 入 
驱动 器 ， 重 复 刚 才 的 动作 。 
整个 流程 都 需要 由 程序 来 控制 机 械 手 臂 和 驱动 器 ， 那 么 程序 运行 在 哪里 呢 ? 当然 是 连 
接 磁 带 库 的 主机 上 ， 程 序 生成 符合 协议 的 电信 号 ， 经 过 HBA 卡 传送 到 磁带 库 电 路 板 上 ， 经 
过 芯片 处 理 ， 转 换 成 操控 机 械 手臂 和 驱动 器 的 男 一 串 电 信号 。 所 以 连接 磁带 库 的 主机 上 ， 
除了 需要 安装 HBA 适配器 的 驱动 程序 之 外 ,还 需要 安装 磁带 库 机 械 手 和 驱动 器 的 驱动 程序 ， 
这 样 才能 够 按照 驱动 程序 定义 的 规则 ， 来 生成 符合 规定 的 、 磁 带 库 可 以 识别 的 电信 号 。 
磁带 机 比 磁带 库 功 能 少 ， 但 是 基本 原理 都 是 一 样 的 ， 只 不 过 机 械 手臂 没 了 ， 取 磁带 和 
放 磁 带 需要 用 人 手 而 已 。 而 且 一 台 磁 带 机 同一 时 刻 只 能 操作 一 盘 磁 带 。 而 在 磁带 库 中 可 能 
有 多 个 驱动 器 ， 或 者 多 个 机 械 手 ， 当 然 机 械 手 不 需要 那么 多 ， 因 为 一 个 机 械 手 就 能 完成 
除非 驱动 器 多 得 让 一 个 机 械 手 都 忙 不 过 来 ， 这 是 不 太 可 能 发 生 的 事情 了 。 多 个 驱动 器 可 以 
同时 读 写 多 盘 磁 带 (每 个 驱动 器 一 盘 )， 使 得 效率 大 大 提升 。 


Cg ER HOLT HIRED. PARRARI. SUR, MARR 
| 示 | 磁盘， 不 可 能 变 为 磁带 ， 那 磁盘 是 怎么 被 虚拟 成 磁带 的 呢 ? 当然 是 通过 存储 控 


etd 制 器 来 虚拟 化 。 


话说 回来 是 磁带 还 是 磁盘 ? 这 都 取决 于 数据 服务 器 看 到 的 影像 ， 而 它 看 到 的 也 不 一 定 
就 是 实际 上 存在 的 。 虚 拟 磁带 库 也 正 是 利用 了 这 个 原理 。 使 用 磁带 库 的 是 主机 服务 器 ， 如 
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果 让 主机 服务 器 看 到 的 影像 就 是 一 个 磁带 库 ， 而 实际 上 却 是 一 台 磁 盘 阵 列 ， 那 么 主机 照样 
会 像 使 用 磁带 库 一 样 使 用 这 台 虚 拟 的 磁带 库 。 要 做 到 这 一 点 ， 就 必须 在 磁盘 阵列 的 控制 器 
上 做 虚拟 化 操作 ， 也 就 是 要 实现 协议 转换 器 类 似 的 作用 ， 一 边 以 磁带 库 的 逻辑 工作 ， 男 一 


边 以 磁盘 阵列 的 逻辑 工作 。 
虚拟 磁带 库 的 好 处 。 
o ”速度 大 大 提升 。 因 为 向 磁盘 写 入 数据 要 比 磁带 快 。 
e ”避免 了 机 械 手 这 种 复杂 的 机 械 装 置 ， 取 而 代 之 的 是 控制 器 
e ”管理 方便 ， 随 意 增删 虚拟 磁带 。 


上 的 电路 板 。 


件 ， 这 些 软件 形成 了 一 个 很 大 的 存储 课题 ， 就 是 所 谓 的 分 级 存储 或 者 存储 生命 


RE 很 多 厂商 还 在 虚拟 磁带 库 上 开发 了 增值 软 


DEARER, 


5. 信息 生命 周期 管理 
假如 ， 某 企业 有 磁盘 阵列 容量 共 1TB， 磁 带 库容 量 10TB。 每 天 


均 会 新 生成 5GB 左右 的 


视频 文件 ， 这 些 视 频 文 件 都 存放 在 磁盘 阵列 的 一 个 500GB 的 卷 中 。 这 样 不 到 3 个 月 ， 这 


500GB 的 卷 便 会 被 全 部 用 完 。 而 这 个 企业 频繁 调 出 查看 的 视频 ， 


- 般 都 是 最 近 一 个 月 以 内 


的 ， 如 果 将 一 个 月 之 前 的 、 几 乎 很 少 或 者 永远 也 不 会 被 再 次 访问 到 的 视频 也 放 在 磁盘 阵列 
上 ， 这 无 疑 是 一 个 巨大 的 浪费 ， 因 此 完全 可 以 把 这 些 文件 备份 到 磁带 库 ， 而 腾 出 磁盘 阵列 


上 的 存储 空间 ， 供 其 他 应 用 程序 存储 数据 。 


磁盘 阵列 是 高 速 数据 存储 设备 ， 而 磁带 库 是 低速 数据 存储 设备 ， 所 以 为 了 各 得 其 所 、 
物 尽 其 用 ， 有 人 便 开 发 了 一 套 信息 生命 周期 管理 软件 ， 这 种 软件 根据 用 户 设 定 的 策略 ， 将 
使 用 不 频繁 的 数据 ， 移 动 到 低速 、 低 成 本 的 存储 设备 上 。 比 如 只 给 某 个 视频 应 用 分 配 20GB 


的 磁盘 阵列 的 空间 , 但 是 向 它 报 告 500GB 的 存储 空间 , 其 中 有 480G 


B 其 实 是 在 磁带 库 上 的 。 


这 样 ， 应 用 程序 源源 不 断 的 生成 视频 数据 ， 而 管理 软件 根 绝 策略 ， 比 如 某 视频 文件 超 
过 了 设 定 的 存留 期 ， 便 将 它 移动 到 磁带 库 上 ， 腾 出 磁盘 阵列 上 的 空间 。 但 是 对 于 应 用 程序 
来 说 ， 总 的 可 用 空间 还 是 在 不 断 的 减少 。 虽 然 磁盘 阵列 上 可 能 总 是 有 空间 ， 但 这 些 空 间 是 
给 最 近 生 成 的 文件 使 用 的 ， 因 为 这 些 文件 会 被 频繁 访问 。 如 果 一 旦 需要 访问 已 经 被 移动 到 
磁带 库 上 的 文件 ， 则 管理 软件 会 从 磁带 库 提取 文件 ， 并 复制 到 磁盘 阵列 上 ， 然 后 供应 用 程 


序 访 问 。 
6. 分 级 存储 


基于 信息 生命 周期 管理 的 这 个 思想 ， 目 前 很 多 厂家 都 在 做 相应 的 解决 方案 ， 分 级 存储 


就 是 这 样 一 种 方案 。 


e 第 一 级 : 一 线 磁盘 阵列 ， 是 指 存储 应 用 频繁 访问 数据 的 磁盘 阵列 。 其 性 能 相对 二 


线 和 三 线 设备 来 说 应 该 是 最 高 的 。 


e 第 二 级 二 线 虚拟 磁带 库 。 这 个 级 别 上 的 存储 设备 ， 专 门 存放 那些 近期 不 会 被 频 


繁 访问 的 数据 。 其 性 能 和 成 本 应 该 比 一 线 设 备 低 ， 但 是 怕 


能 不 至 于 太 低 ， 以 致 于 


提取 数据 的 时 候 造 成 应 用 长 时 间 等 待 。 所 以 虚拟 磁带 库 ， 


正好 满足 了 这 个 要 求 。 


虚拟 磁带 库 利用 成 本 比较 低廉 的 大 容量 SATA 磁盘 , 性 能 适中 的 存储 控制 器 ,这样 


1370 1 


€ 168 &ens—cRPSAORA 


保证 了 性 能 不 至 于 像 磁 带 库 一 样 低 ， 成 本 又 不 会 像 一 线 设备 一 样 高 。 
e 第 三 级 : 磁带 库 或 者 光盘 库 等 。 这 个 级 别 上 的 设备 ， 专 门 存储 那些 几 年 甚至 十 几 
年 都 不 被 访问 到 的 ， 但 是 必须 保留 的 数据 。 磁 带 库 正 好 满足 了 这 个 要 求 ， 这 是 毫 


无 疑问 的 。 
163.2 备份 通路 
1. 本 地 备份 


本 地 备份 的 数据 流向 是 ， 本 地 磁盘 一 总 线 一 磁盘 控制 器 一 总 线 一 内 存 一 总 线 一 磁盘 控 
制 器 一 总 线 一 本 地 磁盘 。 即 数据 从 本 地 磁盘 出 发 ， 通 过 本 地 的 总 线 和 内 存 ， 经 过 CPU 运算 
少量 控制 逻辑 代码 之 后 ， 最 终 流 回 本 地 磁盘 。 

2. 通过 前 端 网 络 备份 

通过 前 端 网 络 备份 的 数据 流向 是 : 本 地 磁盘 一 总 线 一 磁盘 控制 器 一 总 线 一 内 存 一 总 
线 一 以 太 网 卡 一 网 线 一 以 太 网 络 一 网 线 一 目标 计算 机 的 网 卡 一 总 线 一 内 存 一 总 线 一 目标 计 
算 机 的 磁盘 。 即 数据 从 本 地 磁盘 发 出 ， 流 经 本 地 总 线 和 内 存 ， 然 后 流 到 本 地 网 卡 ， 通 过 网 
络 传送 到 目标 计算 机 的 磁盘 上 。 

这 里 说 的 前 端 网 络 ， 指 的 是 服务 器 接受 客户 端 连接 的 网 络 ， 也 就 是 所 谓 “ 服 务 网 络 ”， 
因为 这 个 网 络 是 服务 器 和 客户 端 连接 的 必 经 之 路 。 

后 端 网 络 ， 是 对 客户 封闭 的 ， 客 户 的 连接 不 用 经 过 这 个 网 络 ， 后 端 网 络 专用 于 服务 器 
及 其 必须 的 后 端 部 件 之 间 的 连接 ， 比 如 ， 和 存储 设备 ， 或 者 应 用 服务 器 和 数据 库 服务 器 之 
间 的 连接 ， 这 些 都 不 需要 让 客户 终端 知道 。 

后 端 网 络 可 以 是 SAN， 也 可 以 是 以 太 网 ， 或 者 其 他 任何 网 络 形式 。 以 太 网 并 不 一 定 就 
特 指 前 端 网 络 ， 也 可 以 用 于 后 端 。 随 着 以 太 网 速度 的 不 断 提高 ， 现 在 已 经 达到 了 10Gb/s 的 
速率 ， 所 以 以 太 网 LAN 作为 后 端 网 络 ， 同 样 也 是 有 竞争 力 的。 但 是 说 到 SAN， 一 般 就 是 特 
指 后 端 网 络 。 

3. 通过 后 端 网 络 备份 

通过 后 端 网 络 备份 的 数据 流向 是 : 本 地 磁盘 一 总 线 一 磁盘 控制 器 一 总 线 一 内 存 一 总 
线 一 后 端 网 络 适配器 一 线 缆 一 后 端 网 络 交 换 设施 一 线 缆 一 备份 目的 的 后 端 网 络 适 配器 一 总 
线 一 内 存 一 备份 目的 的 磁盘 或 者 磁带 。 


提 | 这 里 说 的 “后 端 网 络 适 配器 ”， 泛 指 任何 形式 的 后 端 网 络 适 配器 ， 比 如 FC 适 
L&E. ARARE. 


4. LAN Free 备份 

LAN Free 这 个 词 已 经 在 存储 领域 流行 使 用 多 年 。 它 的 意思 是 备份 的 时 候 ， 数 据 不 流 经 
LAN， 也 就 是 不 流 经 前 端 网 络 。 由 于 历史 原因 ， 导 致 了 人 们 的 思维 定 势 ， 认 为 LAN 只 用 于 
前 端 网 络 ， 所 以 说 到 了 LAN 就 想到 了 前 端 网 络 ， 然 而 ， 我 们 上 文 已 经 做 了 解释 ， 后 端 网 络 
同样 可 以 使 用 以 太 网 LAN。LAN 这 个 词 本 意 为 “Local area network”， 即 局 域 网 络 ， 它 没 
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有 对 网 络 的 类 型 加 以 限制 ， 可 以 说 存储 区 域 网 络 也 是 一 个 LAN。 


| 笔者 认为 这 个 词 不 再 适合 当今 存储 领域 ， 取而代之 的 应 该 是 Frontend Free 这 个 
新 的 名 词 ， 即 备份 的 时 候 ， 数 据 不 需要 流 经 前 端 网 络 ， 而 只 流 经 后 端 网 络 。 


Frontend Free 备份 的 好 处 是 : 不 耗费 前 端 网 络 的 带宽 ， 对 客户 终端 接收 服务 器 数据 不 
会 造成 影响 。 相 对 于 后 端 网 络 来 说 ， 前 端 网 络 一 般 为 慢 速 网 络 ， 资 源 非常 珍贵 ， 加 上 前 端 
网 络 是 客户 端 和 服务 器 端 通信 的 必 经 之 路 ， 所 以 要 尽量 避免 占用 前 端 网 络 的 资源 ， 备 份 数 
据 长 时 间 频 繁 的 流 过 前 端 网 络 ， 无 疑 会 对 生产 造成 影响 。 解 决 的 办 法 就 是 通过 后 端 网 络 进 
行 备份 ， 或 者 本 地 备份 。 

无 论 是 本 地 备份 ， 还 是 通过 网 络 备份 (前 端 网 络 或 者 后 端 网 络 )， 都 需要 待 备 份 的 服务 器 
付出 代价 来 执行 备份 ， 即 服务 器 需要 读 取 备 份 源 数 据 到 自身 的 内 存 ， 然 后 再 从 内 存 将 数据 
写 入 备份 目的 ， 对 主机 CPU、 内 存 都 有 资源 耗费 。 是 否 能 让 服务 器 付出 极 小 的 代价 ， 甚 至 
无 代价 而 完成 备份 任务 呢 ? 当然 可 以 。 

5. Server free 备份 

这 个 名 词 是 指 ， 备 份 的 时 候 ， 数 据 甚 至 不 用 流 经 服务 器 的 总 线 和 内 存 ， 消 耗 极 少 ， 
至 不 消耗 主机 资源 。 下 面 来 分 析 一 下 。 

要 想 使 备份 数据 不 流 经 服务 器 本 身 ， 那 么 首先 备份 主体 ， 即 待 备份 数据 所 在 的 地 方 肯 
定 不 能 是 服务 器 的 本 地 磁盘 ， 因 为 数据 从 磁盘 读 出 ， 第 一 个 要 流 经 的 地 方 就 是 总 线 ， 然 后 
到 服务 器 内 存 ， 这 样 就 不 叫 Serverfree 了 。 

所 以 ， 备 份 源 不 能 在 服务 器 上 ， 同 理 ， 备 份 目 的 也 不 能 在 服务 器 上 ， 不 然 写 入 的 时 候 
照样 流 经 服务 器 的 总 线 和 内 存 。 那 么 到 底 怎么 样 才能 实现 Serverfree 呢 ? 

很 简单 ， 备 份 主体 和 备份 目的 都 不 在 服务 器 上 ， 不 在 本 地 就 只 能 在 SAN. 上 了 。 做 到 这 
一 点 还 不 够 ， 因 为 主机 要 从 SAN 上 的 一 个 磁盘 取出 数据 ， 写 入 SAN 上 的 另 一 个 磁盘 ， 同 
样 需要 先 将 数据 读 入 到 主机 的 内 存 ， 然 后 再 写 入 SAN 。 那 么 到 底 怎么 样 才 能 做 到 
Server free 呢 ? 

答案 是 ， 用 SCS 的 扩展 复制 命令 ,将 这 些 命令 发 送 给 支持 Server free 的 存储 设备 ， 然 
后 这 些 设备 就 会 提取 自身 的 数据 直接 写 入 备份 目的 设备 而 不 是 发 送 给 主机 。 或 者 用 另 一 台 
计算 机 作为 专门 移动 数据 之 用 ， 即 待 备份 的 主机 向 这 台数 据 移动 器 发 信号 ， 告 诉 它 移动 某 
磁盘 上 的 数据 到 另 一 个 磁盘 ， 然 后 这 台数 据 移动 器 从 SAN 上 的 源 磁盘 读 取 数 据 到 它 自 己 的 
内 存 而 不 是 待 备 份 主机 的 内 存 ， 然 后 写 入 到 SAN 上 的 目标 磁盘 。 


oh 


所 谓 的 server free， 并 不 是 真正 的 不 需要 服务 器 来 移动 数据 ,而 是 让 服务 器 发 出 
EE 扩展 复制 命令 ， 或 者 使 用 另 一 台 专门 用 作 数 据 移动 的 新 服务 器 ， 来 代替 原来 服 
证 汉 务 器 移动 备份 数据 ， 释 放 运 算 压 力 很 大 的 生产 服务 器 ， 当 然 ，SAN 上 的 源 磁盘 
和 目标 磁盘 或 者 磁带 ， 数 据 移动 服务 器 都 需要 有 访问 权 。 


为 了 统一 数据 备份 系统 中 所 有 节点 之 间 的 消息 流 格 式 , Netapp 公司 和 Legato 公司 合作 
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开发 了 一 种 叫做 NDMP 的 协议 (网 络 数据 管理 协议 ]。 这 个 协议 用 于 规范 备份 服务 器 、 备 份 
主体 、 备 份 目的 等 备份 系统 各 种 节点 的 数据 交互 控制 。 服务 器 只 要 向 支持 NDMP 协议 的 存 
储 设备 发 送 NDMP 指令 ， 即 可 让 存储 设备 将 其 自己 的 数据 直接 备份 到 其 他 设备 上 ， 而 根本 
不 需要 流 经 服务 器 主机 。 


1633 备份 引擎 


备份 引擎， 就 是 一 套 策略 、 一 套 规则 ， 它 决定 整个 数据 备份 系统 应 该 怎么 运作 ， 按 申 
什么 策略 来 备份 ， 备 份 哪些 内 容 ， 什 么 时 候 开始 备份 ， 备 份 时 间 有 没有 限制 ， 磁 带 库 中 的 
磁带 什么 时 候 过 期 并 可 以 重新 抹 掉 使 用 等 。 就 像 引擎 一 样 ， 开 动 之 后 ， 整 个 备份 就 按照 程 
序 有 条 不 率 的 进行 。 

1. 备份 服务 器 

那么 备份 引擎 以 一 种 什么 形式 来 体现 呢 ? 这 无 疑问 ， 当 然 是 运行 在 主机 上 的 程序 来 执 
行 , 所 以 需要 有 这 么 一 台 计 算 机 来 做 这 个 引擎 的 执行 者 这 台 计 算 机 就 叫做 “备份 服务 器 ”， 
意思 就 是 这 台 计 算 机 专门 管理 整个 数据 备份 系统 的 正常 运作 ， 制 定 各 种 备份 策略 。 


2 | 份 的 服务 器 呢 ? 和 汽车 一 样 ， 车 轮 和 引擎 之 间 有 传动 轴 连 接 ， 备 份 服务 器 和 待 
加 -型 备 份 的 服务 器 之 间 也 有 网 络 来 连接 ， 那 么 通过 以 太 网 还 是 通过 SAN 网 络 来 连 
接 呢 ? 


nra uu 
LÀ 


答案 是 以 太 网 络 ， 因 为 以 太 网 络 使 用 广泛 ， 以 太 网 之 上 的 TCP/IP 编程 已 经 非常 成 熟 ， 
非常 适合 节点 间 通 信 。 相 对 于 以 太 网 ，SAN 更 加 适合 传送 大 量 数据 。 而 利用 前 端 网 络 连接 
还 是 利用 后 端 网 络 连接 呢 ? 
一 般 我 们 常用 前 端 网 络 来 连接 待 备 份 服务 器 和 备份 服务 器 。 因 为 备份 策略 就 好 比 两 个 
人 之 间 说 了 几 句 话 ， 所 以 把 这 几 句 话 传送 给 待 备份 服务 器 ， 不 会 耗费 很 大 的 网 络 资源 ， 充 
其 量 每 秒 几 十 个 包 而 已 ， 这 对 前 端 网 络 影响 非常 小 。 有 了 网 络 连接 ， 我 们 就 有 了 物理 层 的 
保障 。 
但 备份 服务 器 是 如 何 与 每 个 待 备份 的 服务 器 建立 通话 的 呢 ? 它 们 之 间 怎 么 通话 ? 通话 
的 规则 怎么 定 呢 ?” 这 就 需要 待 备 份 服务 器 上 需要 运行 一 个 程序 ， 专 门 解释 备份 服务 器 发 来 
的 命令 ， 然 后 根据 命令 ， 做 出 动作 。 
这 个 运行 在 各 个 待 备份 服务 器 上 的 程序 ， 就 叫做 备份 代理 (backup agent). ， 他 们 监听 某 
个 Socket 端口 , 接收 备份 服务 器 发 来 的 命令 .比如 , 某 时 刻 备 份 服务 器 通过 以 太 网 前 端 网 络 ， 
给 某 个 待 备份 服务 器 发 送 一 条 命令 ， 这 条 命令 被 运行 在 该 待 备份 服务 器 上 的 备份 代理 程序 
接收 ， 内 容 是 : 立即 将 位 于 该 服务 器 上 的 C 盘 下 XX 目录 拷贝 到 EE HF XXX 目录 。 备 份 代 
蛙 接 收 到 这 个 命令 之 后 ， 就 会 将 该 待 备 份 服务 器 上 C 盘 下 XX 目录 拷贝 到 EE dit FII] XXX H 
Ko WR D 盘 是 本 地 盘 ，E 盘 是 一 个 SAN 上 的 虚拟 磁盘 ， 那 么 实际 数据 流动 的 路 径 ， 就 是 : 
本 地 磁盘 一 总 线 一 内 存 一 总 线 一 SAN 网 络 适 配器 一 线 缆 一 SAN 交换 设施 (如 果 有 ) 一 磁盘 
阵列 。 

数据 源源 不 断 地 从 本 地 磁盘 流向 SAN 网 络 上 的 磁盘 阵列 ， 成 功 备份 之 后 ， 备 份 代理 收 
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到 来 自 待 备份 服务 器 操作 系统 的 成 功 提示 ， 然 后 备份 代理 通过 以 太 网 向 备份 服务 器 返回 一 
条 成 功 完成 的 提示 。 这 样 备份 服务 器 便 会 知道 这 个 备份 已 经 成 功 完成 ， 并 记录 下 开始 时 间 、 
结束 时 间 、 是 耕 成 功 等 信息 。 
同样 的 道理 ， 如 果 例子 中 的 E 盘 也 是 本 地 一 ， 那 么 路 径 就 短 多 了 。 如 果 备 份 服务 器 告 
诉 备份 代理 ， 将 数据 拷贝 到 位 于 SAN 上 的 磁带 库 设备 而 不 是 磁盘 阵列 ， 那 么 同样 ， 备 份 代 
理 将 数据 从 本 地 磁 司 读 出 ， 然 后 通过 SAN 网 络 适配器 发 往 磁带 库 。 当 然 这 需要 在 待 备份 的 
服务 器 上 安装 可 以 操控 磁带 库 设备 的 驱动 程序 。 同 理 E 盘 如 果 是 个 NAS 目录 ， 则 数据 便 会 
被 发 往 远 端的 NAS 服务 器 了 。 
2. 介质 服务 器 


假如 在 一 个 数据 备份 系统 中 , 有 一 台 普 通 的 SCSI 磁带 机 连接 在 某 台 主机 上 , B. 
有 多 台 主机 的 数据 需要 备份 到 这 台 SCSI 磁带 机 的 磁带 中 ， 而 SCSI 磁带 机 只 能 
-二 同时 接 到 一 台 主机 上 ， 总 不 能 搬 着 磁带 机 ， 给 每 个 机 器 轮流 插 上 用 吧 ? 


Ks is 但 是 这 样 很 麻烦 。 有 没有 一 种 办 法 来 解决 这 个 问题 呢 ? 当然 有 了 。 可 以 将 
带 机 连接 到 固定 的 一 台 计 算 机 ， 只 能 由 这 人 台 计算 机 来 操作 磁带 机 。 其 他 有 数据 需要 
Bh 和 这 台 掌 管 SCSI 磁带 机 使 用 权 的 计算 机 , 通过 以 太 网 连接 起 来 (当然 也 可 以 
通过 其 他 网 络 方式 连接 ， 但 前 面 说 过 ， 以 太 网 是 最 廉价 最 广泛 使 用 的 网 络 )， 谁 有 数据 ， 谁 
就 将 数据 通 i EMANE TAR AE 收 到 数据 后 ， 这 台 计 算 机 将 数据 写 入 
只 有 它 才 有 权 控 制 的 磁带 机 。 写 完 后 ， 下 一 台 有 数据 需要 备份 的 计算 机 ， 重 复 刚才 的 动作 。 
这 样 ， 我 们 用 了 一 台 计 算 机 来 掌管 scsi 磁带 机 ， SHEER RAIN 我 们 用 以 
太 网 扩展 了 连接 。 虽 然 微 观 上 磁带 机 只 miens 只 能 连接 一 台 计 算 机 ， 但 是 经 过 以 太 
网 的 扩展 之 后 ， 这 台 磁 带 机 成 为 了 公用 设备， 掌管 RE 了 代替 这 些 服务 器 
行使 备份 动作 的 角 n 因为 整个 数据 备份 系统 中 ， 只 有 这 台 计 算 机 掌管 了 备份 目的 ， 也 就 
是 磁带 机 、 磁 带 ， 所 以 我 们 称 这 台 服 务 器 为 “介质 服务 器 ”， 也 就 是 说 ， 这 台 服 务 器 是 数 
据 备 份 系统 中 备份 介质 的 掌管 者 ， 其 他 人 都 不 能 直接 访问 备份 介质 。 


| 这 台 计 算 机 只 是 掌握 了 备份 介质 ， 谁 都 可 以 向 它 发 起 请 求 ， 然 后 传输 需要 备份 
的 数据 给 它 ， 但 是 如 果 同时 有 多 台 服 务 器 向 它 发 出 请 求 ， 怎 么 


显然 还 需要 一 个 调度 员 ， 来 管理 调度 好 多 个 待 备份 服务 器 之 间 的 顺序 ， 做 到 有 条 不 亲 ， 
按照 预订 的 策略 来 备份 ， 避 免 冲突 。 那 么 谁 来 担当 调度 员 呢 ?前 面 讲 到 的 “备份 服务 器 ” 
本 身 就 是 这 样 一 个 调度 。 所 以 非 它 莫 属 了 。 

将 这 个 调度 员 也 接 入 以 太 网 ， 调 度 员 使 出 它 的 必 胜 大 法 一 一 在 每 个 待 备 份 的 服务 器 上 ， 
都 安装 它 的 “ 耳 条 ”和 “嘴巴 ”， 即 备份 代理 程序 ， 通 过 这 个 耳 和 打 和 嘴巴 ， 调 度 员 让 每 台 
服务 器 都 乖乖 的 听话 ， 按 照 顺序 有 条 理 的 使 用 介质 服务 器 提供 的 备份 介质 进行 备份 。 在 一 
个 数据 备份 系统 中 ， 介 质 服务 器 可 以 有 多 人 台 同 时 分 担 工作 。 

图 16.8 是 一 个 Veritas Netbackup 备份 软件 的 备份 流程 。 
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168 备份 流 程 


11 某 时 刻 ， 备 份 服务 器 发 起 备份 ， 它 通知 “介质 服务 器 A” 备 份 “ 待 备份 服务 器 C” 
上 的 相应 内 容 。 

2】 “介质 服务 器 A” 向 服务 器 发 出 指令 ， 告 诉 它 可 以 进行 备份 了 ， 请 发 送 需 要 备份 
的 数据 。 

31 待 备 份 服务 器 C 把 需要 备份 的 数据 通过 以 太 网 发 送 给 “介质 服务 器 A”。 

4】 “介质 服务 器 A” 将 收 到 的 数据 源源 不 断 的 写 入 磁带 机 。 

5] 重复 第 1 步 ， 只 不 过 介质 服务 器 为 B， 待 备份 服务 器 为 A。 

看 这 个 拓扑 图 ， 是 一 个 Frontend unfree 备份 方式 。 因 为 备份 数据 流 占 用 了 前 端 网络 


至 此 ,我 们 的 数据 备份 系统 中 ,已 经 有 了 三 个 角色 了 : 备份 服务 器 (调度 员 )、 介 质 服务 
器 (仓库 房间 管理 员 )， 待 备份 服务 器 (存储 货物 的 人 )。 

再 转 回 去 看 看 还 没有 出 现 “ 介 质 服务 器 ”前 的 那个 例子 。 会 发 现 那 时 候 ， 仓 库房 间 尚 充 
足 ， 仓 库 每 个 门 都 开 着 ， 每 个 人 都 可 以 从 各 自 的 门 进去 存放 物品 ， 每 个 需要 存放 货物 的 人 
都 有 权 直 接 访问 它们 的 仓库 房间 ， 它 们 只 靠 一 个 调度 员 来 协调 ， 这 时 候 可 以 认为 ， 每 个 消 
费 者 都 在 管理 着 仓库 房间 ， 它 们 每 个 人 都 是 仓库 房间 管理 


员 ， 只 不 过 它们 各 自 管理 自己 的 房间 而 已 。 所 以 ， 这 种 情 a 
况 下 ， 每 台 待 备份 的 服务 器 ， 都 是 介质 服务 器 ， 而 且 每 全 - 
介质 服务 器 因为 都 需要 操控 备份 设备 ， 所 以 还 需要 安装 诸 zz 
如 磁带 库 等 设备 的 驱动 程序 。 而 备份 服务 器 只 有 一 个 。 

相对 于 由 存放 货物 的 人 自行 管理 仓库 房间 的 情况 , 由 e mg a 
专人 来 管理 仓库 房间 ， 所 耗费 的 前 端 网 络 资源 更 大 。 因为。 HA 
存储 货物 的 人 ， 首 先 需要 通过 网 络 将 货物 发 送 给 仓库 管理 [一 swan 
员 ， 然 后 管理 员 再 将 货物 放 入 仓库 。 而 如 果 让 存储 货物 的 。 2 T 7, 
人 自己 存放 ， 则 会 省 去 第 一 步 。 

图 16.9 所 示 的 就 是 用 上 述 思想 进行 数据 备份 的 一 个 rl a 


拓扑 图 。 
1) 备份 服务 器 通过 以 大 网 ,同时 向 三 台 介质 服务 器 。 图 16.9_Frontend Free 
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2] 


(也 是 待 备份 服务 器 ) 发 出 备份 开始 指令 。 

待 备 份 服务 器 直接 将 数据 通过 后 端 SAN 网 络 设施 写 入 备份 目的 。A 和 B 的 备份 目 
的 是 磁盘 阵列 ， 它 们 可 以 同时 写 入 备份 目的 。C 的 备份 目的 是 磁带 库 ， 如 果 磁 带 库 
只 有 一 个 驱动 器 ， 则 同一 时 刻 只 能 用 于 一 个 备份 操作 ， 这 个 例子 中 ， 磁 带 库 被 5 
独占 。 当 然 C 完成 备份 之 后 ， 磁 带 库 可 以 被 其 他 服务 器 使 用 。A、B、C 都 安装 有 


磁带 库 机 械 

上 面 的 拓扑 图 
占用 前 端 网 络 带 宽 ， 
随 着 各 种 应 
ERP 系统 、 办 公 
操作 系统 文件 ， 旧 
统 当 作 一 个 抽象 的 
如 今 ， 用 户 的 

个 表 空间 ， 或 者 只 
邻 发 给 备份 代理 的 


不 


完成 这 个 备份 动作 ， 
是 否 可 以 是 上 文 提 到 


AHN 


完全 可 以 ， 但 是 


进行 通信 ， 从 而 获得 相关 信息 。 


据 库 管 理 系统 发 出 命 
à 


实例 月 
份 代理 获得 这 些 信息 
pi 


时 候 ， 
A X 目录 下 XXX 文件 ”。 


手 和 驱动 器 的 驱动 程序 。 


(图 16.9)， 就 是 一 个 典型 的 Frontend Free 备份 方式 ， 
而 只 有 备份 时 候 所 发 送 的 指令 数据 经 过 了 前 
系统 的 不 断 出 现 ， 比 如 ， 各 种 数据 库 管 理 系统 、E-mail 转发 处 理 系统 、 
自动 化 系统 等 ， 备 份 技术 也 随 之 飞快 发 


[Kl 


j 端 网 络 。 


管 这 个 文件 是 何 种 类 型 ， 被 什么 应 用 程序 4 


“备份 某 数 据 库 下 的 某 表 


只 能 是 这 样 : 
K 


o^ E 
的 备份 代理 呢 ? 
有 个 需要 增加 的 功能 ， 


令 ， 备 份 这 个 表 空 间 。 


果 是 第 一 种 方式 ， 将 调度 员 发 出 的 命令 对 应 成 实际 文件 的 工作 ， 比 如 ， 
是 一 个 DB2 数据 库 上 的 某 个 表 空间 ,那么 这 个 代理 程序 需要 与 DB2 实例 程 
LS 程序 告诉 备份 代理 ，XXX 表 空 间 对 应 的 容器 (数据 文件 ) 为 某 某 路 径 下 某 某 文件 。 


后 ， 直 接 将 对 应 的 文件 备份 到 备份 目的 。 


果 是 第 二 种 方式 ， 备 份 代理 收 到 调度 员 指 令 之 后 ， 便 向 会 DB2 实例 


可 以 有 两 种 方式 来 完成 备份 ， 直 接 获 取 到 
的 数据 文件 有 哪些 ， 然 后 自行 备份 这 些 文件 ， 或 者 直接 调用 数据 库 管理 系统 


E 成 和 使 用 ， 备 份 的 


备份 源 来 看 待 ， 只 需要 把 这 个 文件 整体 传送 到 备份 目的 就 可 以 了 。 
需求 越 来 越 高 ， 越 来 越 细 化 。 比 如 ， 某 用 户 要 求 只 备份 某 数据 库 中 的 某 
备份 某 个 E-mail。 由 于 一 个 表 空间 包含 一 个 或 者 多 个 数据 文件 ， 这 样 命 
“备份 X 
为 调度 员 不 可 能 知道 某 个 表 空 间 到 底 包 含 哪些 具体 的 文件 。 要 
1 运行 在 待 备份 服 务 器 上 的 某 种 代理 程 


空间 ”， 


而 不 是 : 


时 序 来 参与 ， 那 么 这 


这 进行 通信 , DB2 


服务 程序 


为 备份 数据 流 不 


展 ， 传 统 的 备份 操作 ， 仅 仅 是 备份 


过 候 统 


个 代理 


即 这 个 代理 程序 必须 可 以 与 待 备份 的 应 用 程序 
这 个 表 空 
的 命令 ， 向 数 


间 对 应 


备份 的 


d 


发 出 指 


E 


自身 的 备份 工具 备份 了 数据 。 目 前 广泛 使 用 的 做 法 都 是 第 二 种 方式 ， 


“db2 backup db testdb tablespace userspacel online to \\.tape0” , 这样， 就 利用 


代理 程序 ， 这 就 需要 


应 用 程序 本 身 的 备份 工具 进行 备份 是 最 保险 的 方法 。 


DB2 


因为 解 铃 还 需 系 铃 人 ， 


综 上 所 述 ， 对 于 每 一 种 待 备份 的 应 用 程序 ， 都 需要 一 个 可 以 和 该 应 用 程序 进行 通信 的 


发 针对 各 种 应 用 程序 的 代理 。 目 前 ， 像 Symantec Backup Exec 备份 


软件 ， 提 供 了 诸如 Oracle 数据 库 代 理 、DB2 数据 库 代 理 、Exchange 代理 、Lotus Notes 代 


理 、 


开 


头 的 选 件 ， 就 是 针对 各 种 应 用 程序 所 开发 的 备份 代理 程序 。NDMP 选 件 ， 


SQL Server 代理 、SAP 代理 等 诸多 应 用 程序 的 备份 代理 。 


图 16.10 中 的 ServerFree Option 就 是 用 来 实现 ServerFree 功能 的 一 个 模块 。Agent for 


ServerFree 所 需要 的 协议 栈 。 


"T 
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下 ， 各 个 服务 器 对 备份 目的 设备 的 共享 使 用 权 的 一 个 模块 ， 


来 实现 


SAN Shared Storage Option， 是 用 来 管理 那 种 “每 台 待 备份 服务 器 都 是 介质 服务 器 ” 情 
因为 每 台 服 务 器 都 装 有 目标 
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设备 (磁带 库 等 ] 的 驱动 程序 ， 都 可 以 控制 磁带 库 ， 为 了 避免 意外 冲突 ，SAN Shared Storage 
Option 作为 一 个 附加 的 选 件 来 协调 各 个 服务 器 之 间 有 顺序 的 使 用 目标 设备 而 不 发 生 冲突 。 
已 绊 受 的 许可 证 密 钥 删除 00 


^w GIM for Backup Exec for Windows Servers el 
SAN Shared Storage 
io 


1634 三 种 备份 方式 

1. 完全 备份 

假如 某 时 刻 某 文件 中 只 包含 了 一 个 字符 A。 此 时 我 们 对 这 个 文件 做 了 备份 操作 , 将 其 复 
制 到 其 他 介质 上 ， 这 份 备份 的 文件 中 只 包含 字符 A。 
稍 后 ， 这 个 文件 被 修改 ， 在 字符 A 之 后 增加 了 一 个 字符 B。 此 时 我 们 又 对 这 个 文件 做 
了 备份 ， 将 其 复制 到 其 他 介质 上 ， 这 份 备份 的 文件 中 包含 字符 A，B。 
以 后 ， 不 管 这 个 文件 怎么 变化 ， 变 成 多 大 ， 包 含 多 少 个 字符 ， 只 要 备份 ， 就 将 这 个 文 
件 整个 备份 下 来 ， 这 就 是 完全 备份 。 
2. 差 量 备份 
假如 某 时 刻 某 文件 中 包含 100 个 数字 1、2、3、…100， 在 对 其 做 完全 备份 后 ， 文 件 中 
增加 了 一 个 数字 101， 又 过 了 一 段 时 间 , 文件 中 又 增加 了 一 个 数字 102， 而 我 们 已 经 有 了 一 
个 完全 备份 , 这 个 备份 已 经 包含 了 文件 中 1 一 100 这 100 个 数字 ,如果 我 们 此 时 再 次 对 这 个 
文件 做 完全 备份 ， 是 不 是 太 浪 费时 间 和 存储 空间 了 呢 ? 得 想 出 一 种 办 法 ， 即 只 备份 自从 上 
次 完全 备份 以 来 发 生变 化 的 数据 。 

完全 可 以 ， 我 们 以 一 种 自己 可 以 识别 的 格式 ， 将 101 和 102 这 两 个 数字 保存 到 一 个 单 
独 的 文件 中 。 这 就 叫做 差 量 备份 ， 意 思 就 是 只 备份 与 上 次 完全 备份 内 容 之 间 相差 的 内 容 。 
如 果 要 恢复 这 份 最 新 的 文件 ， 只 要 将 上 次 完全 备份 和 最 后 一 次 的 差 量 备份 合并 起 来 ， 便 可 
组 成 最 终 的 最 新 完全 备份 ， 从 而 恢复 数据 。 

差 量 备份 要 求 必 须 对 数据 做 一 次 完全 备份 ， 从 而 作为 差 量 的 基准 点 。 和 否则 随意 找 一 个 
基准 点 ， 所 生成 的 数据 是 不 完整 的 。 

3. 增 量 备份 

经 过 了 完全 备份 和 差 量 备份 , 我 们 已 经 有 了 两 个 备份 文件 : 包含 数字 1 一 100 的 完全 备 
份 和 包含 数字 101 和 102 的 差 量 备份 。 如 果 这 份 文件 每 天 都 会 增加 一 个 数字 ， 而 我 们 每 天 
都 要 做 差 量 备份 甚至 完全 备份 么 ? 这 里 还 有 一 种 选择 ， 就 是 增 量 备份 。 

增 量 备份 是 指 : 只 备份 自从 上 次 备份 以 来 的 这 份 文件 中 变化 过 的 数据 。 这 里 的 “上 次 
备份 ”， 不 管 上 一 次 备份 是 全 备 ， 差 备 ， 还 是 增 备 自身 ， 本 次 增 量 备份 只 备份 和 上 一 次 备 
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份 结束 的 时 刻 ， 这 份 文件 变化 过 的 数据 。 比 如 ,我 们 现在 拥有 包含 数字 17100 的 完全 备份 
和 包含 数字 101 和 102 的 差 量 备份 。 此 时 ， 我 们 打算 以 后 每 天 执行 增 量 备份 ， 那 么 ， 第 二 
天 ， 这 份 文件 增加 了 一 个 数字 103， 所 以 我 们 只 备份 103 这 个 数字 ， 以 次 类 推 ， 第 三 天 我 
们 只 备份 104 这 个 数字 ， 这 样 备 份 速度 极 大 地 加 快 了 ， 备 份 所 消耗 的 空间 也 小 了 。 
ti Ha 
| res 中 可 以 灵活 的 制定 各 种 策略 ， 比 如 每 周一 对 数据 进行 完全 备份 ， 周 
Ld PIE RSERSHENGETOCIEN Go 


如 果 对 数据 进行 增 量 或 者 差 量 备份 ， 普 通 的 文件 ， 备 份 软件 一 般 是 可 以 检测 到 文件 相 
对 上 次 备份 时 候 所 发 生 的 变化 的 。 但 数据 库 的 备份 ， n ET at, 
一 般 来 说 是 不 可 能 的 ， 因 为 这 些 文件 内 部 格式 是 非常 复杂 的 ， 只 有 数据 库 管 理 软件 自身 才 
能 分 析 并 检测 出 来 ， 所 以 每 个 数据 库 和 检 理 软件 (如 Oracle, 人 守 ) 都 有 自己 的 备份 工具 ,五 
以 全 备 、 差 备 和 增 备 ， 而 第 三 方 备份 软件 在 对 数据 库 做 备份 的 时 候 ， 只 能 调用 数据 库 软件 
自身 提供 的 各 种 命令 ， 或 者 程序 接口 。 


163.5 数据 备份 系统 案例 一 


前 面 介绍 了 数据 保护 的 基本 原理 和 大 体 思 路 ， 下 面 来 看 下 现实 中 的 数据 备份 领域 ， 了 
解 一 下 现今 广泛 实行 的 数据 备份 都 是 怎么 做 的 。 

下 面 用 一 个 企业 的 IT 系统 作为 一 个 初始 化 的 例子 ,如 图 16.11 所 示 ， 某 企业 IT 系统 现 
有 FTP 服务 器 一 台 ，E-mail 服务 器 一 台 ， 基 于 SAP 的 ERP 服务 器 一 台 ，DB2 数据 库 服务 器 
一 台 ( 用 于 SAP 服务 器 的 后 台数 据 库 )， 备 份 服务 器 一 台 ， 大 型 FC 磁盘 阵列 一 台 ， 小 型 磁带 
库 一 台 ( 一 个 机 械 手 ， 二 个 驱动 器 )。 


前 端 以 太 网 交换 机 
EE [mens] 
ET 

DB2 服 务 器 FTP 服 务 器 ERP 服 务 器 
| | | 
| 

后 端 SAN 交 换 机 


Bl: 某 公 司 IT 系统 示意 图 
1378 1 
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以 上 五 台 服 务 器 各 用 以 太 网 卡 连接 到 同一 个 以 太 网 交换 机 上 ， 同 时 各 个 办 公 室 的 客户 
端 PC 也 通过 局 域 网 连接 到 这 台 交 换 机 上 。 另 外 ， 除 备份 服务 器 之 外 的 四 台 服 务 器 上 分 别 装 
有 一 块 FC HBA 适 配 卡 ， 且 通过 光纤 连接 到 一 台 SAN 交换 机 上 。 磁 盘 阵列 也 用 一 条 光纤 连 
接 到 SAN 交换 机 上 。 该 企业 使 用 Symantec Backup Exec 11d 备份 软件 进行 备份 操作 。 

在 备份 服务 器 上 需要 安装 Symantec Backup Exec 的 软件 Master Server 模块 。 

在 每 台 待 备份 的 服务 器 上 需要 安装 Symantec Backup Exec 的 Media Server 模块 、 磁 带 
库 驱 动 程序 、 对 应 的 应 用 程序 备份 代理 模块 。 

在 备份 服务 器 上 ， 用 Symantec Backup Exec 提供 的 配置 界面 ， 来 制定 针对 每 台 服 务 器 
的 备份 策略 ， 策 略 生效 之 后 ， 各 个 服务 器 便 会 按照 策略 中 规定 的 时 间 、 备 份 源 、 备 份 目的 
来 将 各 自 的 数据 备份 到 相应 的 备份 目的 。 这 是 一 个 典型 的 企业 数据 备份 系统 案例 ， 数 据 流 
经 的 路 径 不 包括 前 端 网 络 ， 所 以 属于 Frontend Free 备份 。 


1633.6 数据 备份 系统 案例 二 


Symantec Netbackup 是 Symantec 公司 的 另 一 个 备份 产品 ， 与 Backup Exec 不 同 的 是 ， 
Netbackup 适合 于 大 型 备份 系统 , 支持 各 种 操作 系统 平台 ,各 个 模块 可 以 分 别 安装 在 不 同 操 
作 系统 上 ,由 于 之 间 通 过 TCP/IP 协议 通信 , 所 以 可 以 屏蔽 各 种 操作 系统 的 不 同 。 而 Backup 
Exec HFF Windows 和 Netware 操作 系统 (最 新 的 11D 版 本 支持 LINUX). NetBackup 更 
加 适合 异 构 操 作 系 统 平 台 的 备份 ， 因 此 适合 拥有 众多 不 同 厂 家 服务 器 、 不 同 操作 系统 的 大 
型 企业 的 备份 系统 。 


关于 NetBackup 可 参考 第 16.3.7 节 的 NetBackup 配置 指南 。 


ud 


图 16.12 所 示 的 是 某 企 业 备 份 系统 的 拓扑 图 。 


| 前 端 以 太 网 交换 机 
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该 企业 有 四 台 DB2 数据 库 服务 器 ， 主机 名 分 别 为 : bbpsrv. bbpsr2. srmdb. microcct, 
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EH] Windows 2000 Advanced Server 操作 系统 。 
其 上 分 别 安装 Netbackup 软件 的 介质 服务 器 模块 和 磁带 库 驱 动 程序 。 
中 bbpsrv 服务 器 连接 有 一 台 SCSI 磁带 机 , microcct 服务 器 连接 有 两 台 SCSI 磁带 机 。 
这 四 台数 据 库 服 务 器 也 是 待 备份 的 服务 器 。 

一 台 备 份 服务 器 , 主机 名 为 houseprd, 使 用 Windows 2000 Advanced Srever 操作 系统 ， 
其 上 安装 有 NetBackup 软件 的 Master Server 模块 (默认 包含 了 Media Server 模块 )， 同 时 也 
安装 了 磁带 库 驱 动 程序 ， 并 且 通 过 SCSI 线 缆 连 接 有 一 台 磁 带 机 。 

一 台 HP Ultrium 磁带 库 ， 包 含 一 个 机 械 手 和 两 个 驱动 器 。 

一 台 IBM 3580 磁带 库 ， 包 含 一 个 机 械 手 和 两 个 驱动 器 。 

在 这 个 备份 系统 中 ,由 Master Server 进行 调度 , 每 台 DB2 数据 库 服务 器 都 将 pe 
数据 ， 通 过 SAN 交换 机 传输 给 磁带 库 。 由 于 共有 五 台 服 务 器 使 用 两 台 磁 带 库 ， 所 以 需 : 
这 五 台 服 务 器 共享 这 两 台 磁 带 库 ， 为 了 避免 冲突 ， 调 度 工作 统统 由 Master Server 


16.3.7 NetBackup 配置 指南 


图 16.13 是 在 houseped 这 人 台 Master Server 上 运行 的 NetBackup 配置 工具 的 主 界面 。 
右 侧 窗口 是 各 种 自动 配置 向 导 。 初 次 安装 完 Netbackup 软件 之 后 ， 首 先 要 让 Netbackup 这 
个 调度 员 识别 到 网 络 上 的 每 台 介 质 服务 器 ， 及 与 其 挂 接 的 各 种 用 于 备份 的 存储 设备 。 


alt 
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[el 16.13 NetBackup 主 界面 


1. 配置 存储 设备 

初次 运行 NetBackup 配置 工具 的 时 候 ， 可 以 通过 右 侧 窗口 的 向 导 “Getting Started” X 
让 Master Server 扫描 网 络 上 的 介质 服务 器 和 其 上 的 磁带 库 设备 ， 并 对 扫描 到 的 设备 以 及 磁 
带 做 一 些 配 置 和 记录 ， 形 成 一 个 初始 化 环境 。 

11 单 击 “Getting Started”， 出 现 如 图 16.14 所 示 的 对 话 框 。 

2) 单 击 “ 下 一 步 ”按钮 ， 出 现 如 图 16.15 所 示 的 对 话 框 。 
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T Welcome to NetBackup! Au UE Doe me wird. ə 


s vizard helps you configure NetBackup for 
St tine 


This wizard will take you through the following steps. 


b1. Configure Storage Devices 


1 
2. Configure Volumes 
3. Configure the Catalog Backup 
4 


Creste à Backup Policy 


To configure storage devices, click Nest. 


TED xm | wm «x-so[rzeq] wm | wm 


B1 Getting Started 圆 16.15 Device Configuration 


3] 对 话 框 中 提示 ， 初 始 化 过 程 需 要 4 个 步骤 ， 首 先 扫描 所 有 网 络 介质 服务 器 可 供 备 
份 用 的 设备 。 单 击 “ 下 一 步 ”按钮 ， 出 现 图 16.16 所 示 的 对 话 框 。 
4] 单 击 “下 一 步 ”按钮 ， 如 图 16.17 所 示 ， 扫 描 到 一 个 介质 服务 器 。 


Bt pm 加 
Welcome to the Device Device Hosts 

S Configuration Wizard. Specify the hosts on weich to auto dicover/configuie devices q 
Dig pid snfipres store decies for ure Jt gos es russia this sed for the first time, plete alà and check ll 


osts ih attached devici 
serializetien to configure robotic libraries and 


Only hoste that wre checked will be 
changes, nly the effected orte maed to be eure, 
Before starting, phrsicadly attach ar strage 

Wericer to ie s mbra Jari hia a device most be seemed 

* dy de den 


Option Devices to be 


a] 
Te bagin, click Next. For assistance, dick alp. CEE] ie eliak art 


Tih L7] «r-so[r-ra»| ma | am | 


B 6.16_ 扫 描 介 质 设备 图 16.17 扫描 到 一 个 介质 服务 器 

5] 在 图 1617 的 对 话 框 中 ， 可 以 选择 网 络 上 的 所 有 介质 服务 器 ， 这 样 ， 就 可 以 扫描 
这 些 服 务 器 上 用 于 备份 的 存储 设备 了 ， 如 图 16.18 所 示 。 

61 扫描 结束 后 ， 单 击 “ 下 一 步 ”按钮 ， 出 现 如 图 16.19 所 示 的 对 话 框 。 


Scanning Hosts Backup Devices 
Wait while devices are auto-discovered. Review the devices NetBackup has found. 
Ne Nel 
L T£ you have a backup device that does not appear in this list, cancel this 
ST A Rd E ath hadot wizard and verify that the device is physically attached, and that all 
es installation steps specified by the device and operating system vendor have 


been performed. 


Deriss [scs Serialized] Lini tati ene. 


《上 -- 步 四 [下 - 步 四 让 s | *» | «t-ee[r-rm»] 取消 | s 


图 16.18 扫描 到 介质 服务 器 上 的 设备 图 16.19 设备 列表 
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7) 在 对 话 框 中 会 列 出 所 有 检测 到 的 设备 的 状态 , 但 是 图 16.19 中 没有 找到 任何 设备 ， 
这 可 能 是 由 于 主机 未 联 入 网 络 或 者 介质 服务 器 没有 安装 Media Server 模块 。 单 击 
“下 一 步 ”按钮 ， 出 现 如 图 16.20 所 示 对 话 框 。 
该 对 话 框 可 用 来 建立 一 个 硬盘 目录 ， 这 个 目录 可 供 备 份 文件 存放 ， 但 不 是 必须 的 。 
- 般 将 备份 后 的 数据 存 和 磁带 中 , 用 磁盘 目录 存放 备份 数据 的 一 个 好 处 就 是 可 以 作 
为 一 个 缓冲 , 可 以 设置 NetBackup 在 一 定时 间 后 , 将 这 个 硬盘 上 的 数据 转移 到 其 他 
备份 目的 中 。 

8] 单 击 “ 下 一 步 ”按钮 ， 如 图 1621 所 示 。 


ed pat 
Enter the path to the folder where you vant the backup data to 


me Brorse. 


《上 一 步 四 | 下 -- 步 中 )| mW 


š 


[16.20 建立 本 地 磁盘 备份 目录 B2: 设置 完成 


9] 单 击 “ 完 成 ”按钮 。 将 进入 Volume 配置 界面 ， 如 图 16.22 所 示 。 

10] 所谓 Volume， 指 的 就 是 磁带 在 后 面 会 详细 介绍 。 这 一 步 中 ，NetBackup 会 识别 所 
有 磁带 库 中 的 磁带 , 并 将 它们 编 入 默认 的 Volume Group 中 供 使 用 。 单 击 “ 下 一 步 ” 
按钮 继续 ， 如 图 16.23 所 示 。 


Step 2. Volume Configuratiol z Step 3. Catalog Backup Configuration 3 
Start the Confgure Volumes wizard. Start the Catalog Backup Configuration wizard. 
Tpu have completed device configuration, The next step is to 
This wizard will take you through the following steps obedire eee aee P ed 

V 1. Configure Storage Devices V L Configure Storage Devi 

p OR. Configure Volunes V2 Configure Volumes 
3. Configure the Catalog Backup b 3. Configure the Catalog Backup 
4. Create a Backup Policy A Create a Backup Policy 


To configure media, click Next. To configure the backup of the Catalog, click Next 


<-s Eo] _ ra |  *» | 取消 | am | 


图 16.22 配置 Volume 8]16.23 ”设置 Catalog 备份 
111 设置 Catalog 的 备份 。 所 谓 Catalog， 就 是 NetBackup 自身 运行 所 需要 的 数据 ， 其 
实 NetBackup 自身 管理 维护 着 一 个 小 型 数据 库 ， 数 据 库 中 保存 了 NetBackup 的 所 
有 配置 ， 以 及 所 有 磁带 、 设 备 、 备 份 策略 、 过 期 时 间 等 信息 ， 如 果 Catalog 损坏 ， 
则 整个 NetBackup 将 会 瘫痪 , 所 以 备份 Catalog 自身 也 是 非常 重要 的 。 这 就 像 医生 
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给 别人 治 病 的 同时 ， 自 己 也 要 预防 疾病 一 样 。NetBackup 虽然 是 一 个 备份 其 他 数 


据 的 软件 ， 但 是 它 也 要 备份 好 自身 的 数据 ， 这 一 点 很 好 理解 。 单 击 “下 一 步 ” 按 
钮 ， 如 图 16.24 所 示 。 


121] 单 击 “ 下 一 步 ”按钮 ， 如 图 16.25 所 示 。 


Netbackup Catalog Hackup ¥izard 


eT [3] 
Backup Method A 

A Welcome to the NetBackup Specify the cataog backup method that you wish to configure. e^ 

"MJ. Catalog Backup Wizard. T 


izard helps you configure the catalog 


The catalog backup policy ases media fron a media pool devoted to 
catalog baceps. Uniae catalogs can span two cr more taper 


C Offline, sold catalog backup 
This method writes the catalog backup to two rotating destinations. 
ladkp: must fit oa one tape i£ tape media is used, aad the tape 
eun cmiain only tha catalog beckup cata. 


To begin, click For assistance, click 


[Erw] me | 而 «r-so[r-5m»] wa | a» | 
图 16.24 Catalog 备份 向 导 E1625 选择 Catalog 备份 方式 


13] 选择 “Online，hot catalog backup” 单 选 按钮 ， 单 击 “下 一 步 ” 按 钮 ， 如 图 16.26 
所 示 。 


141 创建 一 个 用 于 备份 Catalog 信息 的 新 策略 , 单 击 “ 下 一 步 ”按钮 , 如 图 1627 所 示 。 
PIERR TES P 


NotBackup Catalog Backup Policy 


Policy Name and T: e 
Create a policy to perform a catabg backup. Ste the poler nane and polcy type. Ny 
Policy name: 
Existing catalog backup policies: [test 
nu w policy typ» determines the types that can be backed up by 


WE. lig or the type of pa 


Select the policy type 
d) isting policies cm bt meli fied fron Ficy lagen 


Ust the "Standard" policy type for Windows 95/98, Macintosh, 
target based Mas, and UMA clientz re de 


i 
OU TE Qi) idoni. paier ome far chent uiae ety other 


‘sw [FED om | 


mo] om | 


[16.26 创建 备份 策略 Bl627 输入 策略 名 称 


15] 输入 btest， 单 击 “下 一 步 ” 按 钮 ， 进 入 备份 方式 选择 窗口 ， 如 图 16.28 所 示 。 
161] 选择 完全 备份 或 者 增 量 、 差 量 备份 。 单 击 “ 下 一 步 ”按钮 继续 ， 如 图 16.29 所 示 。 


pamm" 回 Zockp. FoHsy, Contágurstion Wizard 回 
Backup Type. a Rotation. qx 
Speay te types of backups. NU Select arotaton fer backup and retenton. S 
SU NS 
[1:305 Start etal bae Batain fall badepa for: 
Backs wp all the files specified in the file list. Won 可 [gem dev re] 


T Incremental Back) 
Backs wp all changed files specified in the file list E 


e zi rj 

c c 

r E 
gy To configrs a cilendar based cetalog bae schedule, 
do modify this policy rem Policy Mesaqtaent 


«r-se[r-5o»] _ ra LI] cr-be[r-rw»] ms | a | 


图 16.28 全 备 和 增 备 方式 选择 图 16.29 设置 Catalog 备份 日程 表 
1383 1 


大 话 存储 


网 络 存储 技术 原理 精 解 与 最 佳 实践 


171 设置 每 周 进行 一 次 完全 备份 ,每 个 备份 保留 期 限 为 2 周 ，2 周 过 后 , 之 前 的 备份 就 
认为 失效 ， 存 放 备份 的 磁带 可 供 其 他 备份 使 用 ， 如 图 16.30 所 示 。 

181 选择 具体 备份 时 间 ， 图 16.30 跨越 了 所 有 时 间 ， 所 以 备份 可 以 在 任何 时 间 内 发 生 。 

191 设置 备份 后 的 Catalog 信息 存放 位 置 。 以 及 登录 操作 系统 所 需 的 用 户 认证 信息 。 单 
击 “ 下 一 步 ”按钮 继续 ， 如 图 16.31 所 示 。 


Start Window e Catalog Disaster Recovery ilo e 
Specify tho tire window during which backups are alowed to start. y Specty a fie location to sare the disaster recovery information. YV 


2. 4 6 8 10 12 14 16 19 20 2 2 


A f 
A EE EE] 


bE ned) rw] _ Ra "m LLJ Mb 


图 16.30 选择 具体 Catalog 备份 日 程 表 图 16.31 选择 Catalog 备份 路 径 及 认证 信息 

20] 设置 是 否 进行 邮件 通知 ， 如 图 16-32 所 示 。 选 择 No 单 选 按钮 ， 单 击 “ 下 一 步 ” 按 
钮 继续 ， 如 图 16.33 所 示 。 

211 完成 Catalog 备份 策略 向 导 。 单 击 “ 下 一 步 ”按钮 ， 如 图 16.34 所 示 。 


oataia cataleg backup statas informati oz, 
recede, and ar attached disaster 


«x-so[r-Ewo] x^ x | 


B 16.32 是否 邮件 通知 


ieies oun be asdified fron Policy Menegesant 


Te save this NetBackup policy, click Finish 


strof amg wm | 到 | «x-se[rrm;] x | ew» | 


Bless 完成 设置 Ble34 策略 列表 
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22] 选择 新 创建 的 策略 ， 单 击 “ 下 一 步 ”按钮 ， 即 可 完成 环境 的 初始 化 操作 。 

初始 化 后 , Master Server 会 在 Media Server 列表 中 自动 加 入 这 些 扫描 到 的 介质 服务 器 ， 
并 且 在 Storage Unit 中 列 出 扫描 到 的 机 械 手 设备 。 图 1635 所 示 的 是 介质 服务 器 列表 ， 
图 16.36 所 示 的 是 备份 客户 端 列表 。 


NX 5200 
Windora2000 G) 


Windors2000 S) 
TEET] w 


B 16.36 备份 客 户 端 列表 


图 16.37 所 示 的 是 存储 单元 列表 。 


| Bie git Ne 

EBLE 

Award 

Ej kewseprd Waster Server) Tane [ Storage Unit Type | Density] — Womber of Drives| Robot Type T Robot unber | 
heart? Tu D 
heart E 1 
heart2 E D 
heart2 n 1 
heart n D 
heart2 E 1 
heart n D 
heart2 n 1 
pe n D 
heart2 n 1 


B3 存储 单元 列表 


2. Storage Unit 

Storage Unit( 存 储 单元 )， 是 一 个 逻辑 上 的 概念 。 它 表示 存储 设备 中 管理 一 组 介质 的 单 
元 ， 对 于 磁带 库 设 备 来 说 ， 一 个 机 械 手 就 可 以 掌管 属于 它 的 所 有 磁带 ， 那 么 一 个 机 械 手 就 
是 一 个 存储 单元 。 所 以 图 16.37 中 ， 每 个 磁带 库 的 机 械 手 ， 都 被 认为 是 一 个 存储 单元 。 可 
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以 看 到 右 侧 窗口 中 显示 了 10 个 机 械 手 设备 ， 但 是 物理 上 只 存在 两 个 ， 这 是 为 何 呢 ? 


因为 五 台 服务 器 共享 两 个 机 械 手 ， 每 台 服 务 器 都 会 识别 到 两 台 磁 带 库 的 机 械 手 ， 所 以 


每 台 磁 带 库 中 的 可 用 介质 (磁带 ) 也 会 被 自动 添加 到 Media 项 ， 如 图 16.38 


Act 


共 是 10 个 机 械 手 设备 。 实 际 使 用 的 时 候 ， 只 允许 其 中 两 台 服 务 器 同时 操纵 两 台 磁 带 库 设 
但 是 一 段 时 间 内 ， 五 台 服务 器 均 有 机 会 操纵 磁带 库 ， 这 也 就 是 共享 磁带 库 的 意义 了 。 


所 示 。 


是 "| 因 | 急 | 


ex £B&A|vIDT Bag easi» 


| 
| 


ZelT4L2 JEAET2 TD 0 houseprd 
2 DCAETE TD 1 heweprd 
zrase Ed TD O houseprd 
2 pd TD 1 howeprà 

zreo Ed TD 0 he 
2 DCAET2 TD 1 houseprd 
rdl78L2 JEART2 TD O houseprà 
Sh959L2 pd TD 1 houseprd 
patr DERAETZ T» 0 howseprd 
'seoL2 pd TD 1 houseprd 
zreo HARTZ TD D houseprd 
swir TEART2 TD 1 housenrd 
ZI4179L2 Dd TD 0 houseprd 
96212 dcus TD 1 beweprd 
poo Ed TD 0 houseprd 
963L2 EART? TD 1 houseprd 
4173L2 EART? TD O houseprd 
n JEART2 TD 1 houseprd 
74le912 [204 TD O housoprd 
2 [4 TD 1 houseprd 
Treez [264 TD O houseprd 
2 JEART2 1 houseprd 
Z14176L2 JEAET2 D houseprd 
swm IEART2 1 housenrd 
ame HARTZ 0 houseprd 
She9661 [24 1 howeprd 
Z1417212 E d 0 houseprd 
Ee ARTZ 1 houseprd 
mane [d D houseprd 
2 1 houseprd 
r2 1 houseprà 

ARTZ 1 ho 
1 houseprd 
ART? 1 houseprd 
r2 1 houseprd 
r2 1 houseprd 
r2 1 houseprd 


图 16.38_ 介 质 (磁带 ) 列 表 
16.38 中 的 Robots， 表 示 物 理 上 存在 的 磁带 库 的 机 械 手 ， 所 以 上 只 有 两 个 。 右 侧 窗 


"E 


所 示 的 是 识别 到 的 所 有 磁带 ， 每 盘 磁 带 都 被 编 了 号 ， 以 便 加 以 区 分 。 实 际 上 ， 
会 贴 有 一 个 条 码 ， 机 械 手 扫描 这 个 条 码 以 区 分 每 盘 磁 带 。 

3. 卷 池 (Media Pool) 

由 于 每 盘 磁 带 的 存储 容量 有 限 ， 如 果 有 备份 需要 用 到 多 于 一 盘 磁 带 ， 则 加 
分 配 后 记录 这 些 磁 带 的 使 用 状况 ， 是 个 比较 麻烦 的 问题 。 为 了 使 管理 更 加 方便 


Sa Connected 


Tti Rl A 


何 分 配 并 在 
，NetBackup 


引入 了 卷 池 (Media Pool) 的 概念 。 这 就 像 磁盘 阵列 设备 将 每 个 物理 磁盘 合并 ， 并 再 分 割 成 更 


大 的 Volume 或 者 虚拟 磁盘 一 样 , 磁带 同样 可 以 这 样 被 虚拟 化 。 如 图 16.39 和 图 


人 磁带， 如 图 16.41 和 图 16.42 所 示 。 
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我 们 看 到 ，Volume Pools 项 之 下 的 11 个 卷 池 ， 其 中 名 为 NetBackup 的 卷 池 包 含 了 11 
盘 磁 带 。 而 名 为 bbpserv filesytem 的 卷 池 ， 只 包含 了 一 盘 磁 带 。 有 了 卷 池 之 后 ， 就 可 以 把 
卷 池 中 的 所 有 磁带 ， 当 成 一 个 大 的 虚拟 磁带 来 看 待 。 我 们 可 以 为 每 个 待 备份 的 数据 项 目 分 
配 一 个 卷 池 ， 每 次 备份 的 数据 只 存放 在 这 个 卷 池 中 ， 其 他 卷 池 中 的 磁带 不 会 给 
使 用 ， 这 样 就 做 到 了 充分 的 资源 隔离 。 卷 池 可 以 手动 创建 并 且 在 不 冲突 的 前 提 下 任意 添加 


16.40 所 示 。 


全 这 个 备份 所 
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Iüe Hit Ker dedos lp kd 
Sg-[m|e «ex|:»*9à|vr|2|*mE|[muifte3e6s-2 


prem T Wei im Vols Fa ether 
ni [tesa [ee — mera ye [Rer [wei aver | Boroi Coni | Sior | Yorme | Votame Fooi — [w 
QD pietate [mp Inrsz —— xxm TD 0 herd V 0010). deGadnp 
D steama [asz zz wa mo 0 hoaxepra $000)... ReGadup 
$ template weekend | 国 41732 ZT41T3I2 MHZ TD O hoaseprd 9 00 000. FetBackup 
test | 国 3364I2 SEWAL ENTZ TD 1 heaseprd 9 00_001 FetBackup 
B Storage Imits | 回 s37212 SHES9T2I2 JEART2 TD 1 hoaseprd 17 no not YetBaelep. 
B Storage Iit Groupe | 加 sraz sevsp wae mo pei 309000. et 
Queis eme. | 加 sa seva wne m 1 deed 19090... Weedep 
cades re sens2 — gram mo i 20 onol Beade 
Gd esc Properties 加 :ez seve2 — grum om) 1 hoasepra 2D 00000... Yeseeg 
E haster Server 四 sm Siserrlz — waz — mn» 1 hoazepra zz mnol mtaadem 
Smeds Sever [sya senez wae m 1 honseprà 23 0000... Kee 


Spin 
B) helie and Device Bnagere 
ER Device lanitor 
日 国 Nedia 
Ri Volane Poole 


Ex 


0 000 TL» 
00001 TI» 


[16.39 卷 池 (1) 


deck Mn 
lile Edit Vier Actions Help 
8-l[mi&jxex|»meajvxy|n;*m|ust-ea3iseeo 


hovsepra 1 Volume s] in Volume Pool bipserv. f 


deuseprd di iiem ee Tiens Tot. [Robot rete Tet Cont... J Slot Toeime. | X. 
houseprd_db2urchivelog ^ [BgjuTTZ Em WEARTZ 0 houseprd 1300000... bbp: 
pdatabeae 


日 国 Storage nits 
EQ Storage Unit Grows 
veritas, storage. res 
f 
日 入 tost Properties 
B Mister Sever 
Bede Server 
ij Dients 
B Medie and Device Managment 
S Device Monitor 
bed. 
Wa Vase Pools 


Bl 40 (2) 


New Vi 


L2] x] 


Media Manager host: [houseprd 


Pool name: 
jei 
日 加 Nadia and Device Nanagenent 
ER Device Monitor T^ Permit only the specified host to access volumes in the pool 
E Ell Media Host 


日 中 


T^ Scratch Pool 


1641 新 建 卷 池 


Bl42 输入 名 称 和 描述 
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4. 卷 组 (Media Group) 


NES TENDS pc - y aeg "m 
这 也 是 一 个 逻辑 上 的 概念 ， 下 图 中 显示 了 两 个 卷 组 ， 每 个 磁带 库 中 的 磁带 ， 都 放 到 了 
DANS y au "o wy 3 Pee "S 
个 单独 的 组 中 。 卷 组 在 实际 使 用 上 没有 很 大 的 意义 。 卷 组 不 能 手动 创建 ， 默 认 每 个 机 械 
PME HB A p 
会 生成 一 个 卷 组 ， 如 图 1643 Pros. 
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5. Robots( 机 械 手 ) 
如 图 16.44 所 示 ， 左 侧 显 示 的 是 机 械 手 。 
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图 16.44 左 侧 显 示 的 机 械 手 
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这 个 项 下 面 显 示 了 整个 备份 系统 中 所 存在 的 物理 机 械 手 的 数量 ， 右 侧 窗口 中 显示 了 对 


应 机 械 手 所 掌管 的 磁带 。 
6. Standalone( 非 共享 的 机 械 手 ) 


如 图 16.45 所 示 是 Standalone 机 械 手 。 

如 果 某 台 介质 服务 器 独立 掌管 一 台 磁 带 库 的 机 械 手 ， 
而 没有 共享 给 其 他 主机 使 用 , 则 NetBackup 识别 到 这 种 设 
备 之 后 ， 就 会 显示 在 右 侧 窗口 中 。 本 例 中 没有 这 种 设备 。 

7. Devices( 设 备 ) 

这 一 项 列 出 了 整个 系统 中 所 有 可 用 于 备份 的 物理 存 
储 设 备 ， 如 图 16.46 所 示 。 

右 侧 窗口 中 的 拓扑 图 显示 了 两 台 磁 带 库 和 四 台独 立 
磁带 机 ， 并 有 连 线 。 带 有 齿轮 标志 的 为 介质 服务 器 ， 右 上 
方 的 图 标 为 磁带 库 ， 其 中 还 显示 了 机 械 手 、 磁 带 模 和 两 个 
驱动 器 ， 驱 动 器 下 面 的 手 托 表明 这 个 驱动 器 为 共享 驱动 
器 ， 也 就 是 说 其 他 主机 也 可 以 操作 这 个 驱动 器 。 

右 侧 窗口 的 下 半 部 分 显示 了 所 有 逻辑 而 不 是 物理 设 
备 。 由 于 共享 驱动 器 的 原因 ， 本 例 中 的 逻辑 驱动 器 变 为 了 


12 个 (三 台 服 务 器 ， 每 台 识别 到 四 个 驱动 器 )， 再 加 上 独立 


图 16.47 所 示 。 
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的 磁带 机 ， 共 有 16 个 驱动 器 ， 如 
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Els.47 设备 列表 
同 理 ， 逻 辑 机 械 手 也 有 6 个 而 不 是 3 个 ， 如 图 16.48 所 
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如 果 选 中 Devices 项 下 面 的 某 台 主机 设备 , 便 可 在 右 侧 窗 口 的 下 半 部 分 显示 这 台 


管 的 驱动 器 或 者 机 械 


Bo 
dj Standalone 


图 16.49 所 示 。 
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bbpsrv 这 台 服 务 器 上 的 DB2 数据 库 。 
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并 且 在 右 侧 窗口 的 上 半 部 分 ， 就 会 突出 这 台 设 备 所 连接 的 连 线 ， 如 图 16.50 所 示 。 


HPU trivnl-SCSIO 


IBNLT3SO0-TDIO 


16.50 拓扑 连 线 
图 中 黑色 连 线 表示 : microcct 主机 目前 所 连接 的 设备 有 : 两 台独 立 磁 带 机 驱动 器 、 两 
带 库 中 的 共享 驱动 器 。 
8. Standalone Drivers( 独 立 驱动 器 ) 
如 果菜 台 介质 服务 器 上 有 自己 的 独立 磁带 机 (一 个 驱动 器 ,没有 机 械 手 )， 则 NetBackup 
到 之 后 ， 就 会 在 这 个 项 目下 显示 出 来 ， 本 例 中 共有 4 台独 立 磁带 机 ， 如 图 16.51 Pros. 
以 上 介绍 了 NetBackup 配置 工具 的 一 些 基本 组 成 。 下 面 通过 一 个 实例 来 说 明 如 何 备 份 
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16.51 _ 独立 磁带 机 列表 及 拓扑 
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拓扑 图 中 所 有 独立 磁带 机 的 连接 线 都 用 黑色 加 重 了 。 


16.3.8 配置 DB2 数据 库 备份 


1. 建立 备份 策略 

1] 首先 建立 一 个 备份 策略 ， 命 名 为 “bbpsrv_db2_bak”， 如 图 16.52 所 示 。 

2] 单 击 New Policy， 输 入 名 称 之 后 ， 显 示 如 图 16.53 所 示 的 对 话 框 。 

3] 在 Policy Type 中 我 们 选择 “DB2”， 使 NetBackup 调用 与 DB2 备份 相关 的 模块 。 
在 Policy Volume Pool 下 ， 选 中 专门 为 这 个 备份 所 创建 的 卷 池 “bbpsrv”。 


Bles2 创建 备份 策略 图 16.53_ 新 策略 窗口 
2. 在 策略 中 添加 时 间 表 
切换 到 Schedules 选项 卡 , 设置 什么 时 间 进 行 数据 备份 ， 以 及 每 次 备份 最 多 允许 花费 多 
长 的 时 间 等 。 

11 进入 Schedules 选项 卡 , 窗口 中 已 经 包含 了 一 个 名 为 : Default-Application-Backup 
的 Schedule, 这 个 Schedule 是 备份 DB2 数据 库 所 必须 的 , 因为 备份 时 需要 调用 的 
脚本 中 的 Schedule 名 称 就 是 Default-Application-Backup。 我 们 双击 这 个 Schedule, 
弹出 如 图 16.54 所 示 的 对 话 框 。 

其 中 Type of backup 为 Application Backup， 表 明 这 个 Schedule 是 用 于 由 应 用 程 请 
自主 发 起 的 备份 。 如果 没有 这 个 Schedule, 则 应 用 程序 就 不 能 调用 Netbackup 提供 
的 接口 而 把 数据 发 送 给 NetBackup， 因 为 策略 中 没有 允许 应 用 程序 这 么 做 。 
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B5 编辑 策略 属性 


我 们 所 要 实现 的 ， 不 仅仅 是 手动 从 应 用 程序 发 起 备份 ， 而 是 让 NetBackup 自动 根 
据 设 定 的 时 间 来 备份 ， 所 以 需要 增加 一 个 Schedule。 单 击 下 方 的 New 按钮 。 

将 这 个 Schedule 命名 为 “Auto_Full”, Type of backup 选择 Automatic Full Backup, 
如 图 16.55 所 示 。 


16.55 给 日 程 起 名 


Frequency 选择 每 天 备份 一 次 。Retention (保留 ] 选 择 将 备份 保留 两 周 ， 两 周 后 ， 对 
应 的 磁带 就 可 以 被 抹 掉 或 者 用 于 其 他 备份 。 然后 切换 到 Start Windows 选项 卡 ， 如 
图 16.56 所 示 。 
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图 16.56_ 选择 具体 备份 窗口 时 间 
这 里 设置 ， 每 天 0 点 开始 备份 ， 凌 晨 5 点 结束 备份 。 如 果 由 于 某 种 原因 ， 备 份 持 
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续 了 超过 5 小 时 ， 则 NetBackup 会 执行 完 当 前 备份 。 如 果 还 有 其 他 备份 需要 在 这 
5 个 小 时 中 执行 ， 则 禁止 其 执行 , 直到 第 二 天 的 0 点 , 再 接着 执行 上 次 未 执行 的 备 
份 ， 以 次 类 推 。 

3. 选 定 需要 备份 的 客户 机 

11 接着 切换 到 Clients 选项 卡 ， 如 图 16.57 所 示 。 

2] 单 击 New 按钮 ， 浏 览 或 者 输入 要 备份 的 服务 器 ， 即 bbpsrv 这 台 计 算 机 。 期 间 会 
提示 选择 这 台 计 算 机 的 操作 系统 类 型 ， 这 里 选择 Windows 2000。 然 后 切换 到 
Backup Selections 选项 卡 。 在 前 三 个 选项 卡 中 ， 已 经 定义 了 备份 类 型 、 备 份 发 生 
的 时 间 和 持续 时 间 、 所 需 备 份 的 服务 器 ， 而 唯 独 缺少 了 最 重要 的 内 容 ， 即 备份 这 
台 服 务 器 上 的 哪些 东西 ? 在 Backup Selections 选项 卡 来 完成 这 个 策略 的 最 后 一 
步 : 定义 备份 哪些 内 容 。 

4. 选择 需要 备份 的 内 容 或 者 需要 执行 的 脚本 

11 在 Clients 选项 卡 中 单 击 New 按钮 ， 出 现 如 图 16.58 所 示 的 界面 。 
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2] 然后 单 击 融 按钮 ， 来 浏览 客户 机 上 的 文件 ， 如 图 16.59 所 示 。 

3] 选中 需要 备份 的 目录 或 者 文件 之 后 ， 单 击 “ 确 定 ”按钮 。 
本 例 需要 备份 的 是 数据 库 数据 ， 备 份 数据 库 如 果 只 备份 数据 文件 ,恢复 的 时 候 是 不 
够 的 ， 况且， 如 果 是 online 备份 ， 则 必须 用 数据 库 自己 提供 的 工具 来 备份 ， 才 会 得 
到 可 用 的 镜像 ， 仅 仅 把 数据 文件 复制 一 份 ， 这 种 备份 是 不 能 用 作 恢 复 的 。 所 以 这 个 
例子 中 ， 需 要 在 待 备份 的 计算 机 上 运行 DB2 数据 库 相 关 的 备份 命令 来 备份 数据 库 。 
这 些 命令 都 存在 于 一 个 预先 由 NetBackup 编辑 好 的 批 处 理 脚本 文件 中 。 

4] ”找到 这 个 文件 ， 其 路 径 位 于 待 备份 计算 机 NetBackup 安装 目录 下 。 


C:\Program Files\VERITAS\NetBackup\DbExt\DB2\db2 backup db online.cmd 


选中 这 个 文件 ， 单 击 “确定 ”按钮 ， 如 图 16.60 所 示 。 
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可 以 看 到 ，NetBackup 已 经 识别 出 这 个 脚本 ， 左 侧 的 图 标 已 经 变 为 | 占 。 


ET re Size | Type [Dete [ ise 
een EE 
e- morne 


: E eer E Attributes | @ Schedules | Zi Clients C Backup Selections | 
us 人 E m ——— 
[x] el | 
B 16.59 ”选择 要 备份 的 文件 或 者 要 执行 的 脚本 16.60 ”选择 要 执行 的 脚本 
脚本 的 内 容 如 下 : 


@REM $Revision: 1.2 $ 


@REM bcpyrght 

@REM 

de E E E E E E E E E E E E E E E E AE E E E E E E E E E E E E E E E E E E E E E E E E E E E E E EE E E E E E E E EE E E ORIGO K 
@REM * $VRTScprght: Copyright 1993 - 2003 VERITAS Software Corporation, All 
Rights Reserved $ * 

@REM 

DO E E E E E E E FE E E E E E E E E FE E E E E FE E E E E E E E E E E E E E E E E E E E E E E E E EE E E E E E E E E EE E K 


@REM ecpyrght 


@REM This script is provided as an example. See the instructions below 
@REM for making customizations to work within your environment. 


@REM Please copy this script to a safe location before customizing it. 
@REM Modifications to the original files will be lost during product updates. 
@REM 

@REM This script performs an online backup of the database. An online backup 
@REM requires that the database is configured for forward recovery (see the 
@REM DB2 USEREXIT and LOGRETAIN settings). DB2 users can remain connected 
@REM while performing an online backup. 

@REM 

@REM To back up a database or a database partition, the user must have SYSADM, 
@REM SYSCTRL, or SYSMAINT authority. 

@REM 


@echo off 
@setlocal 


@REM The following changes need to be made to make this script work with your 
@REM environment: 
@REM 


@REM This is the NetBackup library that backs up and restores DB2 databases 
@REM Set db2_nblib below to the correct NetBackup library path for your 
host 
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GREM 

GREM Example: 
Gset db2 nbli 
Gecho db2 nblib = $db2 nblibt 


)set db2 nblib-C:VMprogra-1VveritasMnetbackupVbin nbdb2.d11 


GREM This is the DB2 home directory where DB2 is installed 
GREM Set db2 home to DB2 home directory 

GREM 

GREM Example: 
Gset db2 home 
Gecho db2 home = $db2 homet 


»set db2 home=D:\sqllib 


@REM Set db2 name to the name of the database to backup: 
@REM 

@REM Example: @set db2 name-SAMPLE 

@set db2 name- 

Gecho db2 name = $db2 namet 


GREM (4) Multiple Sessions: 


GREM Concurrency can improve backup performance of large databases. 
GREM Multiple sessions are used to perform the backup, with each session 
GREM backing up a subset of the database. The sessions operate 

GREM concurrently, reducing the overall time to backup the database. 
GREM This approach assumes there are adequate resources available, like 


GREM multiple tape devices and/or multiplexing enabled. 


GREM For more information on configuring NetBackup multiplexing, 
GREM refer to the "Veritas NetBackup System Administrator's Guide". 


GREM If using multiple sessions change db2 sessions to use multiple 
sessions 
GREM 


GREM Example: Gset db2 sessions-"OPEN 2 SESSIONS WITH 4 BUFFERS BUFFER 1024" 
Gset db2 sessions- 


GREM !!!!! END CUSTOMIZATIONS !!!!! 


GREM 


GREM These environmental variables are created by Netbackup (bphdb) 
GREM 
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Gecho DB2 POLICY = $DB2 POLICYS 

Gecho DB2 SCHED = $DB2 SCHED* 

Gecho DB2 CLIENT = %DB2 CLIENTS 

Gecho DB2 SERVER = $DB2 SERVERS 

Gecho DB2 USER INITIATED = $DB2 USER INITIATEDS 
Gecho DB2 FULL = $DB2 FULL$ 

Gecho DB2 CINC = %DB2 CINC% 

Gecho DB2 INCR = $DB2 INCR$ 

Gecho DB2 SCHEDULED = $DB2 SCHEDULED$ 

Gecho STATUS FILE = $STATUS FILE& 


GREM NetBackup policies for DB2 recognize different 
GREM backup types, i.e. full, cumulative, and differential. 


GREM For more information on NetBackup backup types, please refer to the 
GREM NetBackup for DB2 System Administrator's Guide. 

GREM 

GREM Use NetBackup variables to set DB2 full or incremental options 
GREM 


Gset db2 action- 
if "$DB2 FULL$" "1" @set db2 action-ONLINE 

if "$DB2 CINC$" "1" @set db2 actio NLINE INCREMENTAL 

if "$DB2 INCR$" "1" @set db2 action-ONLINE INCREMENTAL DELTA 


Gecho db2 action = $db2 actiont 


GREM Actual command that will be used to execute a backup 

GREM Note: the parameters /c /w /i and db2 should be used with db2cmd.exe 
GREM Without them, NetBackup job monitor may not function properly. 

GREM 


Gset CMD FILE-$temp$VXcmd file 
Gecho CMD FILE = &CMD FILES 


Gset CMD LINE-tdb2 home$VbinVdb2cmd.exe /c /w /i db2 -f $CMD FILES 
Gecho CMD LINE = $CMD LINES 


Gecho BACKUP DATABASE $db2 name% %db2 actiont LOAD $db2 nblib$ 
*$db2 sessionst 

Gecho BACKUP DATABASE $db2 name% €db2 actiont LOAD $db2 nblib$ 
*db2 sessionst > $CMD FILES 


GREM 


Gecho Executing CMD-$CMD LINES 
*CMD LINES 

GREM Successful Backup 

if errorlevel 1 goto errormsg 
echo BACKUP SUCCESSFUL 


if "$STATUS FILE$" == "" goto end 
if exist "$STATUS FILES" echo 0 > "$STATUS FILES" 
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goto end 


:custom err msg 
echo This script must be customized for proper operation in your environment. 


GREM Backup command unsuccessful 

:errormsg 

echo Execution of BACKUP command FAILED - exiting 
if "SSTATUS FILE$" == "" goto end 

if exist "$STATUS FILE$" echo 1 > "$STATUS FILES" 


:end 


Gendlocal 


经 过 这 样 的 配置 之 后 ， 在 每 天 的 0 i, Master Server 便 会 发 送 指令 给 bbpsrv 上 的 
NetBackup 客户 端 ， 让 它 执行 这 个 脚本 ， 此 脚本 中 的 命令 ， 会 告诉 DB2 数据 库 备 份 数据 库 
并 且 调 用 一 个 DLL 链接 库 文 件 ， 将 数据 通过 SAN 网 络 发 送 到 相应 卷 池 所 在 的 磁带 库 上 ， 从 
而 被 写 入 磁带 。 

5. 监控 备份 执行 状况 

可 以 通过 下 面 的 方法 监控 备份 执行 的 状况 ， 如 图 16.61 所 示 。 

右 侧 窗口 的 下 半 部 分 显示 了 备份 运行 的 状况 ， 如 果 成 功 备 份 ， 则 显示 一 个 蓝 色 小 人 成 
功 举 起 的 图 标 ， 如 果 备 份 正在 运行 ， 则 显示 一 个 绿色 小 人 正在 奔跑 的 图 标 ， 如 果 备份 任务 
正在 等 待 ， 则 显示 三 个 绿色 小 人 排队 的 图 标 ， 如 果 任 务 失败 ， 则 显示 圆 形 红色 差 号 。 

对 于 其 他 服务 器 ， 可 以 用 同样 的 步骤 来 备份 ， 这 里 就 不 再 袭 述 了 。 


图 16.61 监控 备份 状态 
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本 地 站 点 
远程 站 点 
数据 通路 
同步 复制 
异步 复制 
基于 主机 的 数据 复制 
基于 存储 的 数据 复制 


数据 备份 系统 只 能 保证 数据 被 安全 的 复制 了 一 份 , 但 是 一 旦 生产 系统 发 生 故 障 ， 比 
如 服务 器 磁盘 损坏 致使 数据 无 法 读 写 .主板 损坏 造成 直接 无 法 开机 或 者 机 房 火灾 等 意外 
事件 ， 我 们 必须 将 备份 的 数据 尽快 地 恢复 到 生产 系统 中 继续 生产 。 这 个 动作 ， 就 叫做 
容 灾 。 

提示 : 容 灾 可 以 在 出 现 故障 后 手动 完成 ， 也 可 以 靠 程 序 自动 完成 ， 


大 话 存储 
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17.1 容 灾 概述 


有 些 事件 中 ， 很 多 公司 就 是 因为 没有 远程 容 灾 系 统 ， 导 致 数据 全 部 毁 于 一 旦 ， 客 户 数 
据 丢 失 、 公 司 倒闭 ， 受 损失 的 不 仅 是 公司 ， 还 有 客户 。 如 果 要 充分 保障 系统 和 数据 的 安全 ， 
只 是 在 本 地 将 数据 进行 备份 还 远 远 不 够 ， 还 必须 在 远程 地 点 建立 另外 一 个 系统 ， 并 包含 当 
前 生产 系统 的 全 部 数据 备份 。 这 样 在 本 地 系统 发 生 故 障 的 时 候 ， 远 程 备 份 系统 可 以 启动 ， 
继续 生产 。 
要 实现 这 样 一 个 系统 , 首先 , 要 保证 主 生产 系统 的 所 有 数据 实时 的 传输 到 远程 备份 系统 。 
其 次 ， 主 系统 发 生 故 障 之 后 ， 必 须 将 应 用 程序 也 切换 到 远程 备份 系统 上 继续 运行 。 应 
用 程序 是 一 个 企业 生产 流程 的 代码 化 表示 ， 只 有 应 用 程序 正在 运行 ， 这 个 企业 才 处 于 生产 
过 程 中 ， 而 应 用 程序 的 成 功 运行 ， 又 必须 依赖 于 底层 数据 。 
俗话 说 ， 巧 妇 难 为 无 米 之 炊 。 我 们 的 应 用 程序 ， 比 如 Exchange 邮件 转发 系统 、SAP 企 
业 ERP 系统 、Lotus Notes 办 公 自 动 化 系统 等 ， 这 些 就 好 比 巧 妇 ， 而 保存 在 磁盘 上 的 数据 
比如 用 户 的 邮件 、ERP 系统 的 数据 库 文 件 、 办 公 自 动 化 系统 自身 数据 文件 等 ， 就 好 比 大 米 ， 
巧 妇 用 她 高 超 的 厨 艺 ， 将 大 米 做 成 熟 饭 ， 供 消费 者 购买 。 
这 就 是 一 个 企业 生产 的 基本 和 纵 形 ， 企 业 ( 巧 妇 ) 用 应 用 程序 (高 超 的 厨 艺 ) 来 处 理 各 种 数据 
(大 米 )， 最 终生 成 新 的 数据 (米饭 )， 供 消费 者 购买 。 而 巧 妇 所 利用 的 锅 碗 对 盆 、 水 、 电 、 煤 
气 等 也 是 必 不 可 少 ， 比 如 服务 器 、 硬 盘 、 网 络 通 信 设 施 、 电 源 等 这 些 IT 系统 必要 组 件 。 下 
面 来 对 比 一 下 厨房 和 IT 系统 机 房 ， 如 表 17.1 所 示 。 

表 17.1 厨房 与 机 房 


机 om 
生产 工具 IRE. NAE. S" ^j 服务 器 、 硬 稚 、 网 络 通信 设施 、 电 源 等 
生产 资料 大 米 、 面 粉 、 蔬 菜 ， 油 盐 效 本 录入 的 原始 数据 
生产 者 Js nti 各 种 应 用 程序 逻辑 


产品 美味 菜 看 客户 需要 的 信息 


生产 者 厨师 ， 用 生产 工具 来 加 工 生产 资料 ， 获 得 产品 。 同 样 ， 各 种 应 用 程序 ， 运 行 在 
服务 器 上 ， 将 各 种 原始 数据 加 工 修改 ， 产 生 客户 需要 的 信息 。 二 者 在 本 质 上 是 相同 的 。 
基于 这 个 生产 模型 ， 我 们 把 一 个 企业 YT 生产 系统 划分 为 四 个 组 件 ， 生 产 资料 、 生 产 工 
有 具 、 生 产 者 、 产 品 。 要 实现 整个 IT 系统 的 容 灾 ,那么 必然 要 实现 上 述 所 有 四 个 组 件 的 容 灾 。 
然而 ，IT 系统 的 产品 和 原始 数据 往往 都 存放 在 同一 位 置 ， 比 如 同一 个 卷 ， 同 一 台 盘 阵 等 。 
本 章 不 描述 产品 的 容 灾 ， 因 为 其 与 生产 资料 的 容 灾 本 质 是 相同 的 。 
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厨房 的 容 灾 。 大 家 不 要 笑 ， 厨 房 容 灾 ， 这 个 名 词 是 不 是 太 荒唐 了 。 现 在 貌似 是 


‘S| 的 ， 但 是 战争 年 代 ， 厨 房 容 灾 将 是 必 备 的 。 人 是 铁 饭 是 钢 ， 关 键 时 刻 看 厨房 。 


中 我 想 局 房 容 灾 这 个 话题 ， 广 大 读者 应 该 比 IT 工作 者 的 办 法 更 多 了 。 比 如 ， 在 
另外 一 个 隐蔽 地 点 建立 一 个 厨房 ， 烷 米 油 盐 普 醋 茶 ， 锅 碗 靳 金 炉灶 勺 都 储存 到 


这 个 厨房 中 作为 储备 粮 和 储备 工具 ， 一 旦 当前 厨房 被 敌人 摧毁 ， 立 即 启 用 备用 
厨房 ， 厨 师 全 部 转移 到 备用 厨房 继续 做 饭 。 这 没 啥 难度 。 的确 ， 谁 都 可 以 想 出 
这 样 的 办 法 。 那 么 我 们 看 看 能 否 用 这 个 思想 来 建立 IT 系统 的 容 灾 。 


生产 工具 的 容 灾 
像 厨房 容 灾 一 样 ， 在 


17.2 生产 资料 容 灾 


IT 系统 的 生产 资料 ， 
不 同 。 
第 一 ，IT 数据 是 可 Lb 


另 一 个 地 点 建立 一 个 IT 机房， 服务器、 网 络 设施 、 磁 盘 阵列 设施 
然 ， 出 于 成 本 因素 ， 备 用 地 点 的 设备 不 一 定 非 要 与 主 系统 中 的 生产 工具 规 
格 和 性 能 完全 相同 ， 在 性 能 和 容量 上 的 要 求 可 以 适当 降低 ， 但 至 少 要 满足 生产 需求 。 

下 面 将 主要 讲解 生产 


资料 的 容 灾 和 生产 者 的 容 灾 。 
原始 数据 的 容 灾 


即 各 种 原始 录入 数据 。 它 和 实物 化 的 生产 资料 比如 大 米 ， 有 很 大 


任意 复制 ， 并 可 以 复制 多 份 的 数据 。 


第 二 ，IT 系统 数据 是 不 断 变化 的 ， 在 生产 的 同时 ， 原 始 数据 将 会 不 断 的 变化 ， 甚 至 产 


品 数 据 会 覆盖 原始 数据 。 


基于 IT 数据 的 这 二 个 特点 ， 在 IT 系统 的 生产 资料 容 灾 方 面 ， 需 要 注意 以 下 两 点 。 
第 一 ， 不 可 能 像 储 存 大 米 一 样 ， 把 某 时 刻 的 原始 数据 复制 到 备用 系统 中 就 不 管 了 ， 因 
为 这 份 数据 是 不 断 在 变化 中 的 ， 我 们 需要 把 变化 ， 实 时 的 同步 到 备用 系统 中 ， 只 要 主 系统 


Haee. HE 


数据 也 要 跟着 变化 。 


第 二 ， 数 据 必 须 至 少 保留 额外 的 一 份 。 因 为 大 米 没有 了 ， 可 以 再 购买 ， 每 次 购买 的 大 


米 也 可 以 一 样 的 。 但 是 


果 数 据 没有 了 ， 就 不 可 再 生 ， 这 个 企业 就 要 面临 倒闭 。 所 以 在 实 


现 容 灾 的 同时 ， 还 必须 做 好 数据 备份 工作 ， 将 数据 备份 到 磁带 或 者 其 他 备份 目标 中 保存 。 
基于 IT 系统 数据 是 不 断 变化 的 ， 所 以 需要 尽量 保存 这 份 数据 的 最 后 状态 ， 比 如 ， 一 天 备份 


一 次 。 如 果 数据 量 很 小 ， 
数据 相差 最 少 。 


有 了 以 上 两 点 的 保证 ， 


下 是 一 个 设计 好 的 例子 。 


甚至 可 以 一 天 备份 多 次 ， 这 样 可 以 充分 保证 备份 的 数据 与 当前 的 


就 可 以 像 厨房 容 灾 一 样 ， 来 设计 IT 系统 的 生产 资料 容 灾 了 ， 以 


11 用 网 络 来 连接 本 地 系统 和 备用 系统 ， 先 将 本 地 系统 某 时 刻 的 数据 ， 实 时 传送 到 备 


用 系统 。 


2] 传输 结束 后 ， 再 将 从 这 个 时 刻 之 后 的 所 有 变化 的 数据 ， 同 步 到 备用 系统 。 

3] 此 后 ， 只 要 本 地 系统 有 数据 变化 ， 则 立即 将 变化 的 数据 传送 到 备用 系统 ， 使 备用 
系统 数据 发 生 相同 的 变化 。 

在 这 个 基础 上 , 还 需要 在 本 地 系统 中 对 数据 做 额外 备份 , 即 备份 到 离线 [如 磁带 等 ] 介 质 
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上 ， 做 到 时 刻 保留 一 份额 外 的 数据 。 有 条 件 的 话 ， 还 可 以 将 备份 好 的 磁带 运送 到 备份 站 点 
去 ， 这 样 就 充分 保证 了 主 站 点 一 旦 发 生火 灾 等 全 损 型 故障 后 的 数据 见 余 度 。 

生产 资料 的 容 灾 ， 是 容 灾 系统 中 最 重要 的 一 个 组 件 ， 因 为 没有 了 生产 资料 ， 纵 使 有 生 
产 工具 、 生 产 者 ， 也 无 法 进行 生产 ， 而 如 果 没 有 了 生产 工具 和 生产 者 ， 比 如 服务 器 、 应 
软件 等 ， 则 可 以 很 容易 购买 到 。 

将 生产 数据 通过 网 络 实时 传送 到 备用 系统 ， 要 实现 这 个 目的 ， 要 怎么 来 设计 呢 ? 我 人 
来 看 个 拓扑 图 ， 如 图 17.1 所 示 。 


SEN 
m 


电信 部 门 专线 或 者 
Qi Internet GO 路 由 器 
CEED 
BHBDUKTISE RUE TAVARAA 
* 服 
务 务 
8 8 
Ei ü 
ESMPHESER ORE EIS EPISC ORE 
&» 
REA HUP REESE 
B7: 两 种 数据 通路 的 位 置 
左边 的 主 站 点 和 右边 的 备份 站 点 存在 相同 的 生产 工具 。 既 然 要 使 主 站 点 和 备用 站 点 之 


间 必 须 通过 网 络 来 接连 ， 所 以 只 要 知道 究竟 在 哪个 网 络 设施 上 进行 连接 。 系 统 中 有 两 个 网 
络 通信 设施 ， 一 个 是 前 端 以 太 网 络 ， 另 一 个 是 后 端 SAN 网 络 ( 也 有 可 能 是 以 太 网 络 ， 即 服务 
器 通过 ISCSI 协议 连接 到 后 端 磁盘 阵列 ]， 我 们 究竟 是 连接 二 者 的 前 端 网 络 还 是 连接 后 端 网 
络 呢 (图 中 标注 的 两 条 路 径 )? 答案 是 ， 两 者 都 可 以 。 


17.2.1 通过 主机 软件 实现 前 端 专 用 网 络 或 者 前 端 公用 网 络 同步 


这 种 方式 利用 的 就 是 图 17.1 中 的 标注 1 所 示 的 路 径 。 

11 主 站 点 和 备 站 点 的 前 端 以 太 网 络 ， 均 通过 路 由 器 连接 至 电信 部 门 的 专线 或 者 
Internet 网 络 上 。 

2] 主 站 点 上 变化 的 数据 ， 经 过 前 端 以 太 网 交换 机 ， 然 后 通过 路 由 器 ， 传 送 给 电信 部 
门 的 网 络 交换 路 由 机 组 中 ， 经 过 层 层 交换 或 路 由 ， 传 输 到 备 站 点 的 路 由 器 。 

3] 然后 经 过 交换 机 传送 到 备 站 点 的 相应 服务 器 上 。 
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4] 服务 器 收 到 数据 后 ， 写 入 后 端的 磁盘 阵列 上 。 


中 如果 为 了 连接 而 接 入 Internet 网 络 ， 则 最 好 做 成 VPN 模式 ， 隧 道 的 基础 上 ， 如 
果 追 求 数据 安全 性 , 则 需要 配置 加 密 模 式 的 VPN。 如 果 对 数据 同步 的 实时 性 要 
日 求 不 高 , 而 数据 量 又 很 大 的 情况 下 , 主 站 点 和 备 站 点 都 接 入 100Mb/s 的 Internet 
网 络 ， 反 而 会 得 到 很 大 的 实惠 ， 特 别 是 备 站 点 和 主 站 点 在 相同 城市 的 情况 下 ， 
这 样 主 站 点 数据 路 由 到 电信 部 门 的 设备 之 后 , 会 经 过 很 少 的 设备 就 会 到 达 备 站 
点 ， 而 且 能 保证 很 大 的 实际 带宽 。 如 果 是 利用 窄带 专线 接 入 专 网 ， 虽 然 可 以 保 
证 这 条 链 路 带宽 独 享 , 但 是 毕竟 带宽 低 。 所 以 专线 可 以 保证 数据 同步 的 实时 性 ， 
但 是 不 适合 大 数据 量 的 传输 。 


因为 这 种 方式 同步 数据 ， 需 要 经 过 前 端 网 络 ， 所 以 实现 这 个 功能 ， 还 需要 在 距离 前 端 
网 络 最 近 的 主机 设备 上 实现 ， 也 就 是 服务 器 群 上 来 实现 。 


S | 为 何不 能 直接 在 网 络 交换 设备 上 或 者 路 由 器 上 来 实现 呢 ? 


第 一 ， 网 络 设备 一 般 是 没有 灵活 的 程序 载 入 运行 能 力 的 ， 网 络 设备 上 运行 的 程序 都 是 
预先 固化 到 芯片 中 的 程序 ， 一 般 不 可 修改 ， 更 不 用 说 再 加 入 另外 的 程序 来 执行 了 。 

第 二 ， 数 据 存在 于 服务 器 ， 或 者 连接 服务 器 的 磁盘 阵列 上 ， 网 络 设备 若 想 从 服务 器 上 
提取 数据 ， 则 必须 通过 调用 操作 系统 提供 的 相关 程序 接口 。 而 跨 网 络 传输 数据 的 现成 接口 ， 
只 有 网 络 文件 系统 ， 所 以 还 需要 将 所 有 数据 卷 都 共享 成 为 NAS 模式 ， 但 这 样 过 于 繁 见 ， 所 
以 我 们 必须 要 在 每 台 有 数据 备份 的 服务 器 上 安装 一 种 软件 来 实现 数据 的 同步 ， 将 这 种 软件 
安装 在 生产 者 ， 也 就 是 应 用 服务 器 上 ， 然 后 在 服务 器 上 提取 生产 资料 和 产品 。 

不 管 生产 资料 和 产品 存在 于 服务 器 本 地 磁盘 ， 还 是 存在 于 后 端的 磁盘 阵列 上 ， 对 于 服 
务 器 操作 系统 来 说 ， 都 是 一 个 个 的 目录 。 在 第 15 章 的 最 后 曾经 描述 过 操作 系统 的 目录 虚拟 
化 ， 不 管 底层 用 的 是 什么 设备 来 存储 数据 ， 亦 不 管 数据 存放 在 网 络 上 还 是 本 地 磁盘 上 ， 最 
终 操作 系统 都 将 这 些 位 置 虚拟 成 目录 ,比如 Windows KY C AE D fit, 或 者 UNIX 下 的 /mnt、 
/mountpoint 等 。 
通过 这 种 软件 可 以 直接 监视 这 些 目录 中 数据 的 变化 ， 只 要 有 变化 的 数据 ， 就 提取 出 来 
通过 网 络 传送 到 远 端 服务 器 上 ， 远 端 服务 器 同样 需要 安装 这 种 软件 的 接收 端 模块 来 接收 数 
据 ， 并 写 入 远 端 备份 站 点 上 相应 服务 器 的 相同 目录 。 

这 种 方式 利用 了 前 端 网 络 进行 数据 同步 。 一 般 前 端 网 络 相 对 后 端 网 络 速度 来 说 是 比较 
低 的 网 络 ， 而 且 是 客户 用 来 访问 服务 器 的 必 经 之 路 ， 所 以 它 的 资源 是 比较 宝贵 的 。 另 外 ， 
前 端 网 络 一 般 都 是 以 太 网 ， 相 对 廉价 ， 而 且 容 易 整 合 到 企业 大 网 络 中 ， 从 而 接 入 电信 部 门 
的 网 络 ， 所 以 适合 基于 TCP/IP 协议 的 远 距离 传输 ， 比 如 大 于 100 公里 的 范围 ， 甚 至 跨国 界 
的 Internet 范围 内 传输 。 

下 面 来 看 一 下 这 种 方式 下 的 数据 流 经 路 径 。 

本 地 磁盘 阵列 (或 者 本 机 磁盘 ] 一 本 地 后 端 网 络 交换 设施 一 本 地 服务 器 内 存 一 本 地 前 


zi 


E 
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网 络 一 电信 交换 机 组 一 远 端 前 端 网 络 一 远 端 服务 器 内 存 一 远 端 后 端 网 络 交换 设施 一 远 端 磁 
盘 阵 列 (或 者 远 端 本 机 磁盘 )。 

如 果 数 据 源 在 本 机 磁盘 ， 则 会 跳 过 本 地 后 端 网 络 交 换 设施 ， 直 接 到 服务 器 内 存 。 如 果 
数据 是 直接 在 内 存 中 生成 的 ， 则 需要 写 入 本 地 一 份 ， 同 时 发 送 给 远 端 一 份 保 存 。 其 中 ， 在 
“本 地 磁盘 阵列 一 本 地 后 端 网 络 交换 设施 一 本 地 服务 器 内 存 ” 这 段 路 径 上 , 数据 是 通过 FCP 
协议 (SCSI over FC 协议 ) 进 行 打包 传送 的 ; 在 “本 地 前 端 网 络 一 电信 交换 机 组 一 远 端 前 端 网 
络 ” 这 段 路 径 上 ， 数 据 是 通过 TCP/IP 协议 传送 的 。FCP 协议 运行 在 后 端 高 速 网 络 的 保障 之 
上 ， 而 TCP/IP 协议 运行 在 使 用 前 端 低速 网 络 的 设备 上 ， 保 障 数据 传输 ， 二 者 各 得 其 所 ， 充 
分 发 挥 着 各 自 的 作用 。 

图 17.2 所 示 的 路 径 即 是 数据 流动 的 路 径 。 服 务 器 上 的 涡轮 泵 表示 数据 同步 软件 ， 它 从 
本 地 提取 数据 ， 并 将 数据 源源 不 断 的 发 送 给 远 端 ， 远 端 服务 器 上 的 涡轮 泵 将 收 到 的 数据 源 
源 不 断 的 写 入 存储 设备 。 


路 由 器 Q—- 


电信 部 门 专线 或 者 
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B2 经 前 端 网 络 备份 数据 
这 种 方式 的 数据 同步 ， 一 般 都 是 文件 级 同步 ， 即 同步 软件 只 检测 文件 这 一 层 的 数据 变 
化 ， 或 者 每 当主 服务 器 针对 某 个 文件 做 写 入 时 ， 写 入 数据 会 同时 发 送 给 备用 服务 器 。 而 对 
底层 卷 的 数据 块 的 变化 ， 不 做 同步 ， 除 非 数 据 块 的 变化 造成 了 对 应 的 文件 的 逻辑 数据 
变化 。 
下 面 介绍 两 个 使 用 这 种 方式 来 同步 数据 的 案例 。 
Veritas Volume Replicator 软件 介绍 


Veritas Volume Replicator( 简 称 VVR)， 是 Veritas 公司 容 灾 套 件 Storage Foundation 系 
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列 软 件 中 的 一 个 模块 ， 它 的 作用 非常 专 一 ， 就 是 将 本 地 某 个 卷 上 的 数据 变化 ， 通 过 前 端 IP 


发 生 顺 序 在 异地 按照 相同 的 顺序 重 现 这 个 10。 


网 络 复制 到 远 端 对 应 的 卷 上 ， 而 且 保 证 数据 变化 发 生 的 顺序 不 被 打 乱 ， 完 全 按照 本 地 的 10 


VVR 支持 耗费 带宽 调整 功能 ， 控 制 对 网 络 带宽 的 使 用 ， 在 业务 繁忙 时 可 以 降低 发 送 速 
度 来 减少 对 网 络 带 宽 的 耗费 ， 并 且 可 以 针对 不 同 的 同步 流 设 定 各 自 的 带宽 。 支 持 异 步 和 同 


步 复制 (在 后 面 会 介绍 ]。 在 网 络 发 生 故 障 的 时 候 ， 可 以 自动 将 复制 模式 从 同步 切换 到 异步 ， 
以 减少 对 主机 业务 的 影响 。 一 旦 复制 断 开 ，VVR 可 以 记录 主 站 点 自从 断 开 之 后 的 数据 变化 ， 


待 连接 重新 建立 之 后 ， 立 即 复 制 这 些 变化 的 数据 ， 而 不 需要 对 两 边 数据 进行 重新 比 对 
全 部 重新 复制 。 


提 
$ | Replicator 等 ， 他 们 的 构思 都 是 一 样 的 ， 只 不 过 实现 方式 和 效果 上 有 所 不 同 。 


17.22 案例 : DB2 数据 的 HADR 组 件 容 灾 


这 个 案例 是 笔者 实施 的 一 个 DB2 数据 库容 灾 案 例 ， 它 利用 了 运行 在 主机 和 备份 机 
-个 数据 库 软 件 模块 ( 即 HADR), 来 实现 两 端的 数据 同步 ， 主 机 和 备份 机 之 间 使 用 基于 


或 者 


类 似 的 软件 还 有 很 多 ， 比 如 Double Take，Legato， 国 产 同步 软件 InfoCore 


上 的 
以 太 


PAHI TCP/IP 协议 连接 。 这 个 案例 同步 的 数据 不 是 卷 上 的 原始 数据 ， 而 是 一 种 对 数据 操作 的 
描述 , 即 数据 库 日 志 , 比如 :“ 在 D 盘 创建 一 个 表 空 间 数 据 文 件 ,名 称 testspace, 大 小 500MB”。 
这 就 是 一 条 日 志 , 主机 只 需要 把 这 句 话 告诉 备份 机 即 可 , 而 不 需要 传输 500MB 的 数据 。 


备份 机 收 到 日 志 后 ， 便 会 在 备份 机 的 磁盘 上 重 做 (replay) 这 些 操作 ， 达 到 与 直接 同步 卷 
据 殊 途 同 归 的 效果 。 
1. HADR 
全 称 为 High Availability Disaster Recovery, 它 是 DB2 数据 库 级 别 的 高 可 用 性 数据 


上 数 


复制 


机 制 , 最 初 被 应 用 于 Informix 数据 库 系统 中 , 称 为 High Availability Data Replication(HDR)， 


是 Share-Nothing 方式 容 灾 的 典型 代表 。 


在 IBM 收购 Informix 之 后 ， 这 项 技术 就 应 用 到 了 新 的 DB2 发 行 版 中 。 
SHE 


一 个 HADR 环境 需要 两 台数 据 库 服务 器 : 主 数据 库 服 务 器 (primary) 和 备用 数据 库 
sis (standby) 。 
@ ”当主 数据 库 中 发 生 事务 操作 时 , 会 同时 将 日 志文 件 通过 TCP/IP 协议 传送 到 备 


ls 


用 数 


据 库 服务 器 ， 然 后 备用 数据 库 对 接受 到 的 日 志文 件 进行 重 放 (Replay)， 从 而 保持 与 


数据 库 的 一 至 性 。 
。 当主 数据 库 发 生 故 障 时 ， 备 
时 ， 备 用 数据 库 服务 器 作为 新 的 主 数据 库 服务 器 进行 数据 库 的 读 写 操作 ， 


Rr: 


数据 库 服 务 器 可 以 接管 主 数据 库 服 务 器 的 事务 处 理 。 


而 客 


户 端 应 用 程序 的 数据 库 连 接 可 以 通过 自动 客户 端 重新 路 由 (Automatic Client 


14051 


大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


Reroute) 机 制 转移 到 新 的 主 服 务 器 。 

e 当 原 来 的 主 数据 库 服 务 器 被 修复 后 ， 又 可 以 作为 新 的 备用 数据 库 服 务 器 加 入 
HADR。 通 过 这 种 机 制 ，DB2 UDB 实现 了 数据 库 的 故障 恢复 和 高 可 用 性 ， 最 大 限度 
的 避免 了 数据 丢失 。 图 17.3 为 DB2 HADR 的 工作 原理 图 。 


客户 端 应 用 程序 | Rütenatis 


77. Redirect 


TCP/IP a 
主 数据 库 服务 器 | —— A 
Ini 


Primary 
日 志 重 放 日 志 重 放 


[usen] 日 志文 件 


Bs DB2 HADR 工作 原理 图 


处 于 备用 角色 的 数据 库 不 能 被 访问 。 


HADR 有 三 种 同步 方式 。 
e SYNC( 同 步 ) 
此 方式 可 以 尽 可 能 地 避免 事务 丢失 ， 但 在 三 种 方式 中 ， 使 用 此 方式 会 导致 事务 响 
应 时 间 最 长 。 在 此 方式 中 ， 仅 当日 志 已 写 入 主 数据 库 上 的 日 志文 件 ， 而 且 主 数据 
库 已 接收 到 来 自 备 用 数据 库 的 应 答 ， 确 定 日 志 也 已 写 入 备用 数据 库 上 的 日 志文 件 
时 ， 方 才 认 为 日 志 写 入 是 成 功 的 。 保 证 日 志 数 据 同时 存储 在 这 两 处 。 
如 果 备 用 数据 库 在 重 放 日 志 记 录 之 前 朋 溃 ， 则 它 下 次 启动 时 ， 可 从 其 本 地 日 志文 
件 中 检索 和 重 放 这 些 记录 。 如 果 主 数据 库 发 生 故 障 ， 故 障 转移 至 备用 数据 库 ， 可 
以 保证 任何 已 在 主 数据 库 上 落实 的 事务 ， 也 在 备用 数据 库 上 落实 。 故 障 转移 操作 
之 后 ， 当 客户 机 重新 与 新 的 主 数据 库 连接 时 ， 可 能 会 有 在 新 主 数 据 库 上 已 落实 的 
事务 ， 对 于 原始 主 数据 库 却 从 未 报告 为 已 落实 。 当 主 数据 库 在 处 理 来 自 备 用 数据 
库 的 应 答 消 息 之 前 出 现 故障 时 ， 即 会 出 现 此 种 情况 。 客 户 机 应 用 程序 应 考虑 查询 
数据 库 以 确定 是 否 存在 此 类 事务 。 
如 果 主 数据 库 失 去 与 备用 数据 库 的 连接 ， 则 不 再 认为 这 些 数据 库 处 于 对 等 状态 ， 
而 且 将 不 阻止 事务 等 待 来 自 备 用 数据 库 的 应 答 。 如 果 在 数据 库 断 开 连 接 时 执行 故 
障 转移 操作 ， 则 不 保证 所 有 已 在 主 数据 库 上 落实 的 事务 将 出 现在 备用 数据 库 上 。 
当 数 据 库 处 于 对 等 状态 时 ， 如 果 主 数据 库 发 生 故 障 ， 则 可 以 在 故障 转移 操作 之 后 ， 
作为 备用 数据 库 重新 加 入 HADR 对 。 因 为 在 主 数据 库 接收 到 来 自 备 用 数据 库 的 应 
答 ， 确 认 日 志 已 写 入 备用 数据 库 上 的 日 志文 件 之 前 ， 不 认为 事务 已 落实 ， 所 以 主 
数据 库 上 的 日 志 顺 序 将 与 备用 数据 库 上 的 日 志 顺 序 相 同 。 原 始 主 数据 库 ( 现 在 是 备 
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数据 库 ] 只 需要 通过 重 放 自从 故障 转移 操作 以 来 ， 在 新 的 主 数据 库 上 生成 的 新 日 
志 记 录 来 进行 同步 更 新 。 
如 果 主 数据 库 发 生 故障 时 并 未 处 于 对 等 状态 ， 则 其 日 志 顺 序 可 能 与 备用 数据 库 上 
的 日 志 顺 序 不 同 。 如 果 必 须 执 行 故障 转移 操作 ， 主 数据 库 和 备用 数据 库 上 的 日 志 
质 序 可 能 不 同 ， 因 为 在 故障 转移 之 后 ， 备 用 数据 库 启 动 自己 的 日 志 顺 序 。 因 为 无 
法 撤销 某 些 操作 (比如 ， 删 除 表 )， 所 以 不 可 能 将 主 数据 库 回复 到 创建 新 的 日 志 顺 序 

内 时 间 点 。 
如 果 日 志 顺 序 不 同 ， 当 在 原始 主 数据 库 上 发 出 指定 了 AS STANDBY 选项 的 START 
HADR 命令 时 ， 将 返回 错误 消息 。 如 果 原 始 主 数据 库 成 功 地 重新 加 入 HADR 对 ， 
则 可 以 通过 发 出 未 指定 BY FORCE 选项 的 TAKEOVER HADR 命令 来 完成 数据 库 
的 故障 恢复 。 如 果 原 始 主 数据 库 无 法 重新 加 入 HADR 对 ， 则 可 以 通过 复原 新 的 主 
数据 库 的 备份 映像 来 将 此 数据 库 重新 初始 化 为 备用 数据 库 。 

e ”NEARSYNC( 接 近 同 步 ) 

比方 式 具有 比 同步 方式 更 短 的 事务 响应 时 间 ， 但 针对 事务 丢失 提供 的 保护 也 很 少 。 
在 此 方式 中 ， 仅 当日 志 记 录 已 写 入 主 数据 库 上 的 日 志文 件 ， 而 且 主 数据 库 已 接收 
到 来 自 备用 系统 的 应 答 ， 确 定 日 志 也 已 写 入 备用 系统 上 的 主 存储 器 时 ， 才 认为 日 
志 写 入 是 成 功 的 。 仅 当 两 处 同 VE HUNG 并 且 目 标 位 置 未 将 接收 到 的 所 有 日 志 
数据 转移 至 非 易 失 性 存储 器 时 ， 才 会 出 现 数据 的 丢失 。 
如 果 备 用 数据 库 在 将 日 志 "Te 到 磁盘 之 前 崩溃 ， 则 备用 数据 库 上 将 
丢失 日 志 记录 。 通 常 ， 当 备用 数据 库 重 新 启动 时 ， 它 可 以 从 主 数据 库 中 获取 丢失 
的 日 志 记录 。 然 而 ， 如 果 主 数据 库 或 网 络 上 的 故障 使 检索 无 法 进行 ， 并 且 需 要 故 
障 转移 时 ， Hà 志 记 录 将 不 会 出 现在 备用 数据 库 上 ， 而 且 与 这 些 日 志 记录 相关 联 的 
事务 将 不 会 出 现在 备用 数据 库 上 。 
如 果 事 务 丢失 ， 则 在 故障 转移 操作 之 后 ， 新 的 主 数据 库 与 原始 主 数据 库 不 相同 。 
客户 机 应 用 程序 应 该 考虑 重新 提交 这 些 事务 ， 以 便 使 应 用 程序 状态 保持 最 新 。 
当主 数据 库 和 备用 数据 库 处 于 对 等 状态 时 ， 如 果 主 数据 库 发 生 故 障 ， 则 在 没有 使 
用 完全 复原 操作 重新 初始 化 的 情况 下 ， 原 始 主 数据 库 可 能 无 法 作为 备用 数据 库 重 新 
加 入 HADR 对 。 
如 果 故 障 转移 涉及 丢失 的 日 志 记录 (因为 主 数据 库 和 备用 数据 库 已 发 生 故 障 ), 主 数 
据 库 和 备用 数据 库 上 的 日 志 顺 序 将 会 不 同 ， 并 且 在 未 执行 复原 操作 的 情况 下 ， 重 
新 启动 原始 主 数据 库 以 作为 备用 数据 库 的 尝试 将 会 失败 。 如 果 原 始 主 数据 库 成 功 
地 重新 加 入 HADR 对 ， 则 可 以 通过 发 出 未 指定 BY FORCE 选项 的 TAKEOVER 
HADR 命令 来 完成 数据 库 的 故障 恢复 。 

如 果 原 始 主 数据 库 无 法 重新 加 入 HADR 对 ， 则 可 以 通过 复原 新 的 主 数据 库 的 备份 
映像 来 将 其 重新 初始 化 为 备用 数据 库 。 


局 域 网 环境 一 般 采 用 NEARSYNC 方式 进行 同步 。 


t 407 1 


e ASYNC[ 异 步 ) 


方式 的 事务 响应 时 间 也 是 最 短 的 。 


在 此 方式 中 ， 只 有 当日 志 记录 已 写 入 主 数据 库 上 的 日 志文 件 ， 而 且 已 
北 给 主 系 统 主机 的 TCP 层 时 ， 才 认为 日 志 写 入 是 成 功 的 。 因 为 主 系统 


自 备 用 系统 的 应 答 ， 所 以 当 事 务 仍 处 于 正在 传 入 备用 系统 的 过 程 中 时 ， 


为 事务 已 落实 。 


如 果 主 数据 库 可 用 ， 则 会 在 此 对 重新 建立 连接 时 ， 将 丢失 的 日 志文 件 
备用 数据 库 。 然 而 ， 如 果 在 丢失 日 志文 件 时 要 求 执行 故障 转移 操作 ， 
和 相关 联 的 事务 都 将 不 会 到 达 备 用 数据 库 。 丢 失 的 日 志 记 录 和 主 数 据 
会 导致 事务 的 永久 丢失 。 

如 果 事 务 丢 失 ， 则 在 故障 转移 操作 之 后 ， 新 的 主 数据 库 与 原始 主 数据 


当主 数据 库 和 备用 er E A 如 果 主 数据 库 发 生 故 障 ， 

完全 复原 操作 重新 初始 化 的 情况 下 ， 原 始 主 数据 库 可 能 无 法 作为 备 

新 加 入 HADR 对 。 

如 果 故 障 转移 涉及 丢失 的 日 志 记录 ， 主 数据 库 和 备用 数据 库 上 的 日 志 

司 ， 并 且 重 新 启动 原始 主 数据 库 以 作为 备用 数据 库 的 尝试 将 失败 。 因 
异步 方式 中 发 生 故障 转移 ， 日 志 记录 更 有 可 能 丢失 ， 所 以 主 数据 库 不 
HADR 对 的 可 能 性 也 更 大 。 如 果 原 始 主 数据 库 成 功 地 重新 加 入 HADR 
通过 发 出 未 指定 BY FORCE 选项 的 TAKEOVER HADR 命令 来 完成 数据 
复 。 如 果 原 始 主 数据 库 无 法 重新 加 入 HADR 对 ， 则 可 以 通过 复原 新 的 
备份 映像 将 此 数据 库 重 新 初始 化 为 备用 数据 库 。 

2. BBP 系统 结构 


相同 的 。 客 户 机 应 用 程序 应 该 考虑 重新 提交 这 些 事务 ， 以 便 使 应 用 程序 


如 果 主 系统 发 生 故 障 ， 此 方式 发 生 事务 丢失 的 几率 最 高 。 在 三 种 方式 之 中 ， 此 
bd 


将 此 记录 传 
不 会 等 待 来 
可 能 会 认 


主 数 据 库 主机 上 、 网 络 上 或 备用 数据 库 上 的 故障 可 能 导致 传送 中 的 日 志文 件 丢失 。 


则 日 志文 件 
库 上 的 故障 


这 不 是 完全 


:状态 保持 


则 在 没有 使 
用 数据 库 重 


顺序 将 会 不 
为 ， 如 果 在 
能 重新 加 入 
对 ， 则 可 以 
库 的 故障 恢 
主 数据 库 的 


某 企业 目前 有 一 套 物流 BBP 系统 , 基于 SAP 构建 , SAP 后 台数 据 库 使 用 的 是 DB2 v8.2。 


现 有 一 台 闲 置 服务 器 (IP: 192.168.100.23)， 使 用 这 台 服 务 器 作为 HADR 系统 的 
已 经 上 线 运行 的 BBP 服务 器 (IP: 192.168.100.231) 作 为 系统 的 主 节点 。B2B 系 
扑 与 实现 HADR 之 后 的 拓扑 图 如 图 17.4 所 示 。 

HADR 目前 闲置 的 备份 机 充分 利用 了 起 来 ,一旦 主 节点 发 生 故 障 , 可 


备份 节点 ， 


统 目前 的 拓 


以 立即 手动 


切换 到 备份 节点 ， 与 此 同时 ， 客 户 端 会 自动 重新 连接 到 备份 机 ， 使 得 4 


生产 继续 进行 。 故 障 


的 主机 可 以 高 线 进行 故障 恢复 。 恢复 之 后 可 以 加 入 HADR £l. JF HÀ 
表 17.2 简要 说 明了 实施 HADR 的 过 程 。 
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Web 页 面 服务 器 Web 页 面 服务 器 Web 页 面 服务 器 Web 页 面 服务 器 
192.168.100.232 192.168.100.234 192.168.100.232 192.168.100.234 
SAP 应 用 服务 器 SAP 应 用 服务 器 SAP 应 用 服务 器 SAP 应 用 服务 器 
192.168.100.156| — |192.168.100.230 192.168.100.156| — |192.168.100.230 


ps 


B2B 系 统 拓扑 图 
7.4 B2B 系统 目前 的 拓扑 与 实现 HADR 之 后 的 拓扑 图 


表 17.2 在 上 述 环 境 下 实施 HADR 的 简单 过 程 


所 做 操作 
对 主机 数据 库 做 离线 备份 ， 数 据 量 75GB。 
拷贝 主机 数据 库 的 离线 备份 镜像 到 备份 机 
检查 主机 和 备份 机 的 磁盘 分 区 、 数据库 管理 器 配置 参数 、 数 据 库 配置 
数 、 活 动 日 志 路 径 、 归 档 日 志 路 径 、 容 器 路 径 、 用 户 名 和 密码 、 环 
境 变量 ， 如 有 不 同 ， 修 改 备份 机 配置 与 主机 一 至 
用 镜像 恢复 备份 机 上 的 数据 库 
再 次 检查 恢复 之 后 数据 库 的 配置 与 主机 是 否 一 致 
在 主机 和 备份 机 上 分 别 用 写 好 的 脚本 配置 HADR 所 需 的 参数 (脚本 见 


附录 )。 
主机 执行 的 脚本 名 : hadr_pri.bat 
备份 机 执行 的 脚本 名 : hadr std.bat 


启动 备份 机 上 的 HADR: 

Db2 “deactivate db bbp" 

Db2 “start hadr on db bbp as standby” 
启动 主机 上 的 HADR: 

Db2 “deactivate db bbp" 

Db2 “start hadr on db bbp as primary” 
检查 主机 和 备份 机 HADR 的 运行 状态 : 
Db2pd -db bbp -hadr 

Db2 "get snapshot for db on bbp” 

等 待 两 边 HADR 处 于 对 等 状态 
Takeover 测试 。 

先 停止 三 台 应 用 服务 器 上 的 SAP。 

备份 机 上 执行 : 

Db2 "takeover hadr on db bbp” 

Db2 "get snapshot for db on bbp” 

检查 是 否 备 份 机 成 功 接管 了 主机 的 角色 。 
在 备份 机 上 创建 测试 表 : 

Db2 "create table bbpadm.hadrtest(a int)" 
Db2 “insert into bbpadm.hadrtest values(100)" 
在 主机 上 执行 : 

Db2 “takeover hadr on db bbp” 

Db2 “select * from bbpadm.hadrtest” 

Db2 “drop table bbpadm.hadrtest" 

检查 备份 机 上 创建 的 表 是 否 已 经 同步 到 主机 


B2B 系 统 HADR 拓 扑 图 


预计 消耗 时 间 ( 分 钟 ) 
220 


20 
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所 做 操作 


续 表 
预计 消耗 时 间 ( 分 钟 ) 
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Takeover by force 测试 

在 备份 机 上 执行 : 

Db2 "takeover hadr on db bbp" 

Db2 “get snapshot for db on bbp" 

在 主机 上 执行 : 

Db2 "takeover hadr on db bbp by force" 
Db2 "get snapshot for db on bbp" 

此 时 HADR 应 该 处 于 断 开 状态 。 

Db2 "connect to bbp” 


从 强制 接管 恢复 到 HADR 配对 的 步骤 。 

在 主机 上 执行 : 

Db2 "stop hadr on db bbp" 

在 备份 机 上 执行 : 

Db2rfpen on bbp 

Db2 “terminate”; db2stop 

Db2start 

Db2 “start hadr on db bbp as standby” 

在 主机 上 执行 : 

Db2 “start hadr on db bbp as primary” 

Db2 "get snapshot for db on bbp” 

检查 HADR 是 否 重 新 配对 

客户 端 自动 重 路 由 测试 

在 192.168.100.230 和 192.168.100.156 上 执行 : 
Db2 "disconnect bbp user 用 户 名 
Db2 "connect to bbp” 

Db2 “list db directory” 

查看 是 否 已 经 收 到 备份 机 地 址 和 端口 。 

在 HADR 备份 机 上 执行 : 

Db2 "takeover hadr on db bbp” 

Db2 "get snapshot for db on bbp” 

在 192.168.100.230 和 192.168.100.156 上 执行 : 
Db2 "disconnect bbp” 

Db2 "connect to bbp user 用 户 名 using 密码 ” 
Db2 “list db directory" 


检查 是 否 收 到 了 另 一 台 DB2 服务 器 的 地 址 和 端口 。 


回 切 HADR 角色 
主机 上 执行 : 
Db2 “takeover hadr on db bbp” 

Db2 “get snapshot for db on bbp” 

在 192.168.100.230 和 192.168.100.156 上 执行 : 
Db2 “disconnect bbp” 

Db2 “connect to bbp user 用 户 名 using 密码 ” 
Db2 “list db directory" 

检查 是 否 收 到 了 备用 DB2 服务 器 的 地 址 和 端口 


e Hadr pri.bat 内 容 


db2 "UPDATE 
db2 "UPDATE 
db2 "UPDATE 
db2 "UPDATE 
db2 "UPDATE 
db2 "UPDATE 
db2 "UPDATE 
db2 "update 
port 5912» 

db2 "update 
db2 "update 


DB 
DB 
DB 
DB 
DB 
DB 
DB 


CFG 
CFG 
CFG 
CFG 
CFG 
CFG 
CFG 


FOR 
FOR 
FOR 
FOR 
FOR 
FOR 
FOR 


bbp 
bbp 
bbp 
bbp 
bbp 
bbp 
bbp 


USING 
USING 
USING 
USING 
USING 
USING 
USING 


alternate server for 


db 
db 


cfg 
cfg 


€ hadr std.bat 内 容 


db2 "UPDATE 
db2 "UPDATE 
db2 "UPDATE 
db2 "UPDATE 
db2 "UPDATE 
db2 "UPDATE 
db2 "UPDATE 
db2 "update 


port 5912" 

db2 "update 

db2 "update 
完成 配 后 ， 在 


Db2 get snapshot for db on bbp 


DB 
DB 
DB 
DB 
DB 
DB 
DB 


CFG 
CFG 
CFG 
CFG 
CFG 
CFG 
CFG 


for 
for 


FOR 
FOR 
FOR 
FOR 
FOR 
FOR 
FOR 


bbp 
bbp 


bbp 
bbp 
bbp 
bbp 
bbp 
bbp 
bbp 


using 
using 


USING 
USING 
USING 
USING 
USING 
USING 
USING 
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HADR LOCAL HOST 192.168.100.231" 
HADR LOCAL SVC 64000" 

HADR REMOTE HOST 192.168.100.23" 
HADR REMOTE SVC 64001" 

HADR REMOTE INST db2bbp" 

HADR SYNCMODE NEARSYNC" 

HADR TIMEOUT 60" 

db bbp using hostname 192.168.100.23 


logindexbuild on" 
indexrec restart" 


HADR LOCAL HOST 192.168.100.23" 
HADR LOCAL SVC 64001" 

HADR REMOTE HOST 192.168.100.231" 
HADR REMOTE SVC 64000" 

HADR REMOTE INST db2bbp" 

HADR SYNCMODE NEARSYNC" 

HADR TIMEOUT 60" 


alternate server for db bbp using hostname 192.168.100.231 


db cfg for bbp using logindexbuild on" 
db cfg for bbp using indexrec restart" 


主机 或 者 备份 机 上 的 DB2 命令 行 环境 中 输入 以 下 命令 : 


即 可 以 查看 HADR 的 运行 状态 ， 如 图 17.5 Pros. 


: Docunent 


17.2.3 通过 主机 软件 实 


用 这 种 方式 来 同步 ;数据 ， 不 会 流 经 


点 对 应 的 存储 设备 中 。 


起 来 。 或 者 直接 通过 裸 光 纪 


and Setting 


xg 


如 果 用 前 者 连接 两 个 站 点 


une 


a 
192 


bbpadm 


64901 


0.264050 


8808881283CBA 
8001283CBA 


现 后 端 专 用 网 络 同步 


洗 网 络 ， 而 全 部 通过 后 端 网 络 传输 到 备份 站 


各 主 站 点 的 后 端 网 络 设施 和 备份 站 点 的 后 端 网 络 设施 连接 


SAN 交换 机 ; 再 或 者 租用 电信 


部门 的 光缆 专线 。 


要 求 两 个 站 点 之 间 的 道路 上 可 以 自己 布线 ， 比 如 一 个 大 
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院内 ， 可 以 自主 布线 ， 不 需要 经 过 市 政 部 门 干 预 ， 这 样 便 可 以 直接 连接 两 端的 SAN. 交换 机 ， 
直接 承载 FC 协议 了 。 和 否则 ， 如 果 两 个 站 点 跨越 了 很 远 的 距离 ， 那 么 就 必须 使 用 后 者 ， 也 就 
是 租用 电信 部 门 的 光缆 ， 但 是 这 条 光缆 上 的 数据 就 必须 符合 电信 部 门 传输 设备 所 使 用 的 协 
议 了 。 后 者 需要 添加 额外 的 协议 转换 设备 ， 两 个 站 点 各 一 个 ， 如 图 17.6 所 示 。 


| | p m» | | i | 
B6 连接 两 个 站 点 的 后 端 网 络 

现在 电信 部 门 的 光纤 专线 一 般 为 SDH 传输 方式 ， 接 入 到 用 户 端的 时 候 ， 一 般 将 信号 调 
制 成 EB1、0C3 等 编码 方式 ， 所 以 必须 将 FC 协议 承载 于 这 些 协 议 之 上 ， 也 就 是 我 们 在 前 面 
第 13 章 中 所 描述 的 Protocol Over Protocol 模型 ， 完 成 这 个 动作 的 ， 就 是 协议 转换 器 。 

协议 转换 器 在 一 端 按 照 菜 种 协议 的 逻辑 进行 工作 ， 而 在 另 一 端 则 按照 另 一 种 协议 的 逻 
辑 进 行 工 作 ， 把 数据 从 一 端 接收 过 来 ， 经 过 协议 转换 ， 以 另 一 种 协议 的 逻辑 发 送出 去 ， 到 
达 对 端 后 ， 再 进行 相反 的 动作 。 

有 些 路 由 器 则 直接 在 其 内 部 集成 了 各 种 协议 转换 器 ， 可 以 说 路 由 器 就 是 一 种 协议 转换 
器 。 我 们 可 以 看 一 下 机 房 中 的 网 络 路 由 器 , 上 面 有 各 种 各 样 的 接口 , 为 何不 清一色 都 是 RJ45 
以 太 网 接口 呢 ? 

因为 路 由 器 不 只 是 路 由 以 太 网 数据 ， 他 还 要 路 由 其 他 网 络 协议 的 数据 ， 甚 至 还 要 在 不 
同 网 络 协议 之 间 做 转换 。 而 如 果 把 这 些 协议 都 做 到 SAN 交换 机 上 ， 那 么 这 台 SAN 交换 机 ， 
就 是 一 台 不 折 不 扣 的 SAN 路 由 器 了 。 对 于 没有 费用 购买 SAN 路 由 器 的 用 户 来 说 ， 用 一 个 层 
层 的 协议 转换 设备 来 完成 也 是 很 划算 的 , 这 就 像 给 照相 机 加 一 层 层 的 特殊 镜头 一 样 。 图 17.7 
是 一 个 层 层 协 议 转换 器 的 实例 。 


WS 


多 路 复 多 路 复 
纯 Fc 协 议 FC overlP — ETH overE1 PET REI ETH overE1 FC overIP 纯 FC 协议 
rETH 


> A | ran | Fepmx ES 


图 17.7_ 利 用 SDH 网 络 连接 后 端 网 络 

源 端的 纯 FC 协议 ,经 过 FCIP 网 关 , 变 成 了 基于 以 太 网 的 IP 协议 (FC over IP over ETH), 
经 过 E1/ 以 太 网 转换 器 ， 承 载 到 了 El 协议 之 上 ， 然 后 多 路 E1 信号 汇聚 到 光端机 ， 通 过 一 
条 或 者 几 条 光纤 ， 传 输 给 电信 部 门 的 SDH 交换 设施 上 进行 传输 ， 到 达 目 的 之 后 ， 进 行 相反 
的 动作 ， 最 终 转换 成 纯 FC 协议 。 这 样 ， 源 和 目的 都 不 会 感觉 到 中 间 一 层 层 协议 转换 设备 的 
存在 。 
主 站 点 和 备 站 点 的 后 端 SAN 交换 机 能 够 成 功 连接 之 后 ， 两 个 SAN 网 络 便 可 以 融合 了 ， 
就 像 一 个 SAN 网 络 一 样 。 所 以 ， 主 站 点 的 服务 器 也 就 可 以 访问 到 了 备份 站 点 的 磁盘 阵列 。 
这 样 ， 不 需要 经 过 前 端 网 络 ， 就 可 以 直接 访问 备份 站 点 的 存储 设备 ， 也 就 可 以 直接 在 备份 
站 点 的 存储 设备 上 读 写 数据 了 。 如 图 17.8 所 示 ， 备 份 站 点 磁盘 阵列 上 的 一 个 LUN( 卷 B) 可 
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第 17 章 是 公 移 山 一 大话 数据 容 灾 


以 直接 被 主 站 点 的 服务 器 识别 ， 这 样 ， 主 站 点 的 服务 器 就 可 以 同时 操作 本 地 磁盘 阵列 和 备 
站 点 的 磁盘 阵列 了 。 


RE 


"ERE 
Ei 
44 


_ 后 端 网 络 交换 设施 


17.8 后 端 网 络 通路 示意 图 


我 们 来 看 一 下 这 种 方式 下 数据 走 过 的 路 径 。 
本 地 磁盘 阵列 一 SAN 网 络 交换 设施 一 本 地 服务 器 内 存 一 SAN 网 络 交换 设施 一 通过 协 转 
流入 电信 部 门 网 络 (如 果 有 ) 一 远 端 SAN 网 络 交 换 设施 一 远 端 磁盘 阵列 ， 如 图 17.9 所 示 。 


上 述 的 两 种 方式 中 ， 第 二 种 方式 的 步骤 比 第 一 种 少 了 两 步 ， 数 据 到 达 远 端 SAN 


E 交换 设施 之 后 ， 立 即 被 传送 到 了 磁盘 阵列 这 个 最 终 目 标 ， 而 不 必 再 经 过 一 台 服 
unm 851. 9 


Nes 
S Jm 
N 
电信 部 门 专线 或 者 
min e-—— Internet OO 路 由 器 
客户 机 群 
TARERE EE DENES SAA 
* 服 
e fa E 
L4 Ed 
L4 [7 8 
pm 个 i | 
punscmum "PLU t 电信 部 门 高 pm 后 端 网 络 交 换 设施 
$ 转 速 光 顷 专线 s I | 
HEEN ETE 磁盘 阵列 
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种 方 


不 可 能 有 一 种 泵 ， 可 以 让 水 不 经 过 它 就 可 


式 中 ， 双 方 都 没有 对 方 存储 设备 的 直接 访问 权 ， 必 须 通 过 对 方 服务 器 


因为 第 二 种 方式 中 ， 主 站 点 的 服务 器 对 备份 站 点 的 存储 设备 有 了 直接 访问 权 ， 而 第 一 
的 参与 。 


然而 ， 第 二 种 方式 数据 仍然 至 少 需要 经 过 一 台 服 务 器 ， 为 何 呢 ? 因为 涡轮 泵 (实现 数据 
同步 功能 的 软件 ) 是 运行 在 服务 器 上 的 ， 没 有 涡轮 泵 ， 水 就 不 会 流动 ， 数 据 


也 


无 法 流动 ， 而 


| 以 流动 。 同 样 ， 数 据 流 也 不 可 能 不 经 过 泵 就 自己 


流动 。 


阵列 


取 数 据 ， 发 送 到 前 端 网 络 ， 网 络 那 头 用 一 个 接收 者 将 接收 的 数据 写 入 到 盘 阵 中 。 


写 入 保存 ， 则 写 入 本 地 卷 A 


其 实 没有 什么 特别 指出 ， 我 们 来 分 析 第 一 种 方式 的 同步 方法 ， 那 个 泵 


ME, WA SAN 已 经 连接 了 ， 而 且 主 站 点 的 服务 器 可 以 畅通 无 阻 的 访 | 


n 


备 站 点 的 磁盘 


存储 设备 了 ， 万 事 俱 备 ， 只 从 东风 。 究 竟 在 这 种 方式 中 ,要 怎么 来 设计 这 个 涡轮 泵 呢 ? 


的 是 从 本 地 提 


EN 同 理 ， 第 二 种 方式 下 ， 大 思路 当然 还 是 这 样 ， 只 不 过 是 从 后 端 网 络 提取 数据 之 
后 ， 再 发 送 回 后 端 网 络 的 另 一 个 目的 ， 然 而 这 一 切 只 需要 一 个 系 就 能 完成 ， 因 
相思 为 这 个 和 泵 现在 已 经 可 以 掌管 数据 的 起 源 设备 和 数据 的 终结 设备 了 。 


我 们 理所当然 的 设计 了 这 个 泵 ， 它 的 作用 方式 就 是 ,将 数据 从 本 地 的 卷 A 中 提取 出 来 ， 
然后 直接 通过 SAN 网 络 写 入 位 于 备份 站 点 的 卷 B。 如 果 数 据 是 直接 在 内 存 中 生成 的 ， 需 要 


- 份 ， 同 时 写 入 远 端 的 卷 B 一 份 。 这 种 方式 显然 


比 第 一 种 方式 


来 的 快 ， 但 是 它 对 网 络 速度 要 求 更 高 ， 成 本 也 更 高 。 第 一 种 方式 中 ， 有 两 个 泵 ， 而 第 二 种 
方式 中 ， 只 有 一 个 和 汞 ， 这 样 会 不 会 造成 “动力 ”不 足 呢 ? 不 会 的 ， 水 在 流动 过 程 中 是 有 阻 


力 的 ， 


这 


而 数据 流 是 没有 阻力 的 ， 所 以 如 果 增 加 额外 的 泵 ， 反 而 会 影响 数据 流 


种 实现 方式 又 叫做 “ 卷 镜 像 ”， 意 思 就 是 两 个 卷 像 镜 子 一 样 完全 一 样 。 


的 速度 。 
第 一 种 方式 


为 何不 叫 镜像 呢 ? 因为 第 一 种 方式 路 越 的 距离 太 远 ， 这 样 不 能 达到 两 个 卷 在 任何 时 刻 的 数 
据 部 相 同 ， 在 讲 同步 和 异步 的 时 候 还 会 涉及 这 方面 的 问题 。 这 种 方式 能 很 好 
步 的 实时 性 ， 但 是 不 适合 远 距离 大 数据 量 数据 同步 ， 除 非 不 异 成 本 搭建 高 速 远 距离 专线 


链 路 。 


第 二 种 方式 ， 卷 同步 软件 是 工作 在 卷 这 一 层 的 ， 所 以 它 检测 的 是 数据 块 


文件 的 变化 ， 同 


1. Veritas Volume Manager 软件 介绍 


Veritas Volume Manager 也 是 Veritas 公司 Storage Foundation 套件 中 的 


的 功能 就 是 辅助 
能 是 SAN 上 的 LUN 逻辑 磁盘 ) 。 
一 般 操作 系统 自己 的 磁盘 管理 模块 功能 有 限 ， 比 如 Windows 提供 的 磁盘 管理 器 组 件 ， 
识别 到 的 物理 磁盘 进行 分 区 、 格 式 化 、 挂 载 到 某 个 盘 符 下 ， 并 且 分 区 
而 且 不 能 动态 调整 分 区 大 小 ， 要 调整 也 只 能 删除 分 区 再 重新 建立 ， 当 然 一 些 第 
软件 可 以 做 到 调整 分 区 大 小 ， 不 过 仍然 需要 重启 。Windows Server 操作 系统 提供 的 动态 磁 


其 功能 只 限于 天 


保证 数据 同 


的 变化 而 不 是 


步 的 数据 内 容 是 数据 块 而 不 是 文件 ， 和 第 一 种 方式 有 所 不 同 。 


一 个 模块 ， 它 


或 者 代 蔡 操作 系统 自己 的 磁盘 管理 模块 来 管理 底层 的 物理 磁盘 (当然 也 有 可 


zm 
EC 


| m 


盘 管 理 ， 虽 然 可 以 做 到 RAD 卡 的 部 分 功能 ， 但 是 仍然 不 够 灵活 ， 而 且 效 率 低 下 。 而 
VxVM(Veritas Volume ManageD] 卷 管理 软件 可 以 彻底 蔡 换 操作 系统 的 卷 管理 功能 。 
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€l/s5 sesu—XkuxE X 


a EAH, CIRE RARE RAE A” . TARAR, RER 


a 本 书 第 5 章 中 曾经 通俗 的 阐释 了 卷 管理 软件 的 思想 ，VXVM 就 是 这 样 一 个 卷 管 
bd 
分 配 。 


它 改变 了 操作 系统 的 磁盘 管理 器 的 分 区 管理 的 闲置 ， 将 所 有 磁盘 虚拟 成 卷 池 ， 然 后 从 
池 中 分 配 新 的 卷 ， 新 卷 可 以 动态 的 增 大 和 减 小 容量 ， 可 以 动态 分 割 、 合 并 。 支 持 卷 多 重 镜 
像 。 支 持 RAID 0，RAID 1， RAID 0+1，RAID 5。 支 持 RAID 组 在 线 动态 扩容 ， 可 随时 向 
RAID 组 中 添加 新 磁盘 而 不 影响 使 用 。 卷 之 上 还 需要 有 一 层 文 件 系 统 ，VxVM 同样 有 自己 的 
文件 系统 ， 叫 做 VxFS。VxFS 是 一 个 高 效 的 日 志 型 文件 系统 ， 这 就 使 得 在 发 生计 溃 之 后 文件 
系统 的 自 检 过 程 非常 快 。 另 外 ， 还 支持 文件 系统 大 小 动态 扩充 和 收缩 。 支 持 Direct 10. 3x 
持 文件 系统 快照 功能 。 
用 户 只 要 在 服务 器 上 安装 VxVM 软件 ， 经 过 相关 配置 ， 就 可 以 实现 对 服务 器 上 两 个 卷 
的 镜像 操作 ， 实 现 两 个 卷 的 数据 同步 。 一 旦 某 时 刻 主 站 点 发 生 故 障 ， 则 备 站 点 的 卷 上 数据 
和 主 站 点 发 生 故 障 的 时 候 完全 一 致 。 此 时 只 要 在 备份 站 点 的 服务 器 上 挂 载 这 个 卷 到 某 个 盘 
符 (windows)] 或 者 目录 (UNIX) 下 ， 便 可 以 继续 使 用 了 。 
2. Logcal Volume Manager 软件 介绍 


Logcal Volume Manager(LVM) 是 Linux 系统 上 的 一 个 开源 的 软件 ， 后 来 被 IBM 的 AIX 
操作 系统 用 于 默认 的 卷 管理 模块 。LVM 相对 于 VxVM 来 说 ， 是 一 个 更 加 开放 、 通 用 的 卷 管 
理 软件 。LVM 同样 也 可 以 对 两 个 卷 进行 镜像 操作 。 在 本 书 第 5 章 已 经 介绍 过 LVM， 这 里 就 
不 做 过 多 描述 了 。 


17.24 通过 数据 存储 设备 软件 实现 专用 网 络 同步 


在 前 两 种 方式 中 ， 描 述 过 数据 要 流动 ， 就 需要 一 个 泵 来 提供 动力 。 第 一 种 方式 中 ， 有 
两 个 泵 ， 数 据 流 经 的 管道 最 长 ， 第 二 种 方式 中 ， 有 一 个 泵 ， 数 据 流 经 的 管道 比 第 一 种 要 短 。 
这 两 种 方式 ， 泵 都 被 安装 在 了 服务 器 上 。 而 第 三 种 方式 ， 泵 没有 安装 在 服务 器 上 ， 也 没有 
安装 在 网 络 设备 上 ， 而 是 被 安装 在 了 存储 设备 上 ， 如 图 17.10 所 示 。 
数据 最 终 还 是 要 存储 在 存储 设备 上 ， 与 其 让 别人 从 自己 身上 提取 数据 然后 发 送 到 远 端 ， 
不 如 自己 动手 ， 丰 衣 足 食 。 第 三 种 方式 就 是 利用 的 这 种 思想 ， 自 己 做 主将 自己 的 数据 通过 
后 端 SAN 网 络 设施 传输 到 目标 设备 上 。 
如 图 所 示 ， 主 站 点 的 磁盘 阵列 设备 上 的 同步 软件 ， 从 自身 的 一 个 卷 (LUN A) 提 取 数 据 ， 
通过 SAN 交换 机 传输 给 了 备份 站 点 的 磁盘 阵列 设备 上 的 同步 软件 接收 端 ， 并 将 接收 到 的 数 
据 写 入 镜像 卷 ([LUN B). 

数据 流 的 路 径 如 下 : 本 地 磁盘 阵列 一 本 地 SAN 网 络 交 换 设施 一 电信 部 门 交换 机 组 (如 果 
有 ) 一 远 端 SAN 网 络 交 换 设施 一 远 端 磁盘 阵列 。 

路 径 比 第 二 种 方式 又 少 了 两 步 。 更 加 重要 的 是 ， 这 种 方式 彻底 解脱 了 服务 器 ， 服 务 器 
上 不 需要 增加 任何 额外 的 负担 ， 所 有 工作 全 部 有 磁盘 阵列 设备 自己 完成 。 
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电信 部 门 专线 或 者 
Internet 


EEEE mm munus 
xd # 


端 以 本 网 交换 
m 
务 
E 
m 
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个 R 
ü 
ME 
REEF 


C0 路 由 器 


前 端 以 太 网 交换 


Sepp 


磁盘 阵列 


图 17.10 经 过 后 端 网 络 同步 数据 


能 的 软件 了 。 所 以 ， 这 种 数据 同步 软件 ， 


应 运 而 生 。 


己 的 CPU、RAM、ROM， 其 至 有 自己 的 磁盘 。 磁 盘 阵列 就 是 一 台 管理 和 虚拟 


B 5 章 详细 讲解 过 磁盘 阵列 。 磁 盘 阵列 本 身 就 是 一 个 计算 机 系统 ， 有 自 
m 
化 大 量 物理 磁盘 的 主机 系统 。 既 然 是 主机 系统 ， 那 当然 可 以 在 其 上 运行 各 种 功 


P 目前 几乎 每 个 厂家 的 高 端 磁盘 阵列 设备 ， 都 具有 数据 同步 功能 。 比 如 IBM 公司 
z pS 系列 盘 阵 上 的 数据 同步 功能 叫做 Remote Mirror. HDS 公司 的 叫做 TrueCopy， 


GHE EMC 公司 的 叫做 SRDF， 不 管 叫 什么 ， 它 们 的 思想 和 原理 都 是 一 样 的 ， 只 不 过 


在 实现 方法 和 效果 上 有 所 不 同 。 


这 种 方式 的 数据 同步 ， 由 于 底层 存储 设备 不 


而 不 是 文件 ， 也 就 是 说 存储 系统 只 要 发 现 某 卷 上 的 某 个 块 变化 了 ， 就 会 把 这 个 块 复制 到 远 


程 设 备 上 。 此 外 ， 备 份 站 点 的 存储 设备 必须 和 主 
的 磁盘 阵列 产品 之 间 无 法 做 数据 同步 。 而 在 主机 
机 上 的 同步 软件 所 操作 的 是 操作 系统 卷 ， 而 不 是 


会 识别 卷 上 的 文件 系统 ， 所 以 同步 


DE 


站 点 的 存储 设备 型 号 一 致 ， 因 为 不 
上 的 同步 引擎 ， 就 没有 这 种 限制 ， 
磁盘 阵列 上 的 卷 ， 操 作 系统 隐藏 了 


HX 
因为 主 
底层 存 


储 阵 列 上 的 卷 ， 不 管 什么 厂家 什么 型 号 的 盘 阵 ， 经 过 了 操作 系统 的 屏蔽 ， 对 应 用 程序 看 来 ， 


统统 都 是 一 个 卷 ， 或 者 一 个 盘 符 或 目录 。 


1725 Xf: IBM 公司 Remote Mirror 容 灾 实施 


Remote Mirror 是 IBM 公司 的 DS4000 系列 


pb 端 磁盘 阵列 上 的 一 个 软件 模块 ， 


其 功能 就 


是 将 本 地 磁盘 阵列 上 某 个 或 者 某 些 卷 的 数据 ， 同 步 到 远 端 磁盘 阵列 上 对 应 的 卷 ， 支 持 同 步 


14161; 


€l/s5 8a kEREARK 


和 异步 复制 ， 支 持 一 致 性 组 。 
某 企业 存储 系统 如 图 17.11 所 示 。 


服 服 
务 务 
器 E 
| 
3 em | 
后 请 网 络 交换 设施 E 电信 部 门 高 ”| 协 | | 后 请 网 络 交换 设施 
* osea [s 
DS4500 Ds4500 


B: 某 企 业 存储 系统 图 

这 个 企业 有 两 台 DS4500 磁盘 阵列 ， 主 、 备 站 点 各 一 台 。 现在 将 主 站 点 的 两 个 卷 LUN A 
和 LUN B 同步 到 备份 站 点 的 两 个 卷 LUN C 和 LUN D 上 。 此 时 需要 启动 DS4500 的 Remote 
Mirror 功能 。 启 用 这 个 功能 ， 要 求 主 站 点 和 备 站 点 上 必须 分 别 建立 一 个 用 于 数据 缓冲 以 及 

相关 重要 数据 存放 的 卷 ， 且 必须 为 镜像 卷 ， 大 小 100MB BIE. 
11 在 Storage Manager 配置 界面 中 ,选择 Storage Subsystem | remote mirror | Active 
菜单 命令 ,选择 在 现 有 的 array 上 建立 一 个 mirror ff] Repository 逻辑 卷 ,如 图 17.12 

所 示 。 
Œ DS4500_4_GDPPrim Introduction (Activate Remo... 圆 


Thit wizard vil end ycuthrouchthe recessary staps to activate the Rante Mirroring 


trina erays ree caoacty 


The array secte 10t me mrt repository disi orves rus nave at east 256188 NE 
ores adoton, scavano Remote Nirorna well og out ary connecaons to 
nost por 2 and raserve tus bor mrror data rremsston. 


Select where you wauki ie to place the miror repostory logal drives 


O urcontoues capacty (creste new arrar) 


B 17.12 ”创建 Repository 卷 


2] 单 击 Next 按钮 ， 弹 出 如 图 17.13 所 示 的 对 话 框 ， 提 示 DS4500 磁盘 阵列 将 前 端的 
2 号 端口 专门 用 于 连接 远程 的 磁盘 阵列 设备 来 传输 数据 ,所 以 这 个 端口 将 禁止 用 于 
其 他 主机 的 连接 。 

3] 单 击 Finish 按钮 。 提 示 在 备份 节点 上 也 需要 相同 的 操作 ， 如 图 17.14 所 示 。 

4] 主 站 点 上 的 两 个 Repository 已 经 建立 成 功 ， 如 图 17.15 所 示 。 

5】 在 备份 站 点 上 重复 上 述 步骤 。 然 后， 在 备份 站 点 磁盘 阵列 上 建立 两 个 目标 卷 ， 大 
小 必须 大 于 源 卷 ， 如 图 17.16 所 示 。 

61 在 主 节点 上 右 击 Create Remote Mirror, le 17.17 和 图 17.18 所 示 。 
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= DS4500_4 GDPPrim - Introduction (Create Remot... 圆 


tote cspscty or tre primer agecal arve n tre ranored par 
4. Sopped al UO and uranourted any fie system on the secondary logical drive. 
CAUTION: Creating a mirrored logical drive oer wil start a synchronization process 
between the prinary end secondary ogca drives. This wil overwrite ALL existirg data 
on the secondary logical drive anc make the seconcary logical rive READ-ONLY. If you 


have existna data on vour secondary logical drive, take aopropriate steps to back up the 
dala before cresting the rirrored gical drive pai 


Lee Jemen Jem] 


图 17.18 创建 远程 镜像 
此 时 ， 本 地 磁盘 阵列 会 显示 出 网 络 上 的 另 一 台 磁盘 阵列 设备 ， 如 图 17.19 所 示 。 


天 DS4500 4 GDPPrim - Select Storage Subsystem (Create Remote Mirror) K] 


Soloctihe storage sutsystom that ontane ho cocordiy logical dive you wart sc ncheem ye miorod oa tho storago subcyoton you wish 10 uoa is 
natin heit, use the Erterorise Management Mndow’s Edè-» Adó Device meru opion- 


H1719 远程 设备 列表 
T) ”选择 备份 磁盘 阵列 上 的 镜像 目标 盘 ， 如 图 17.20 所 示 。 


= DS4500_4_GDPPrim - Select Secondary Logica. .. R) 
Select the secondary logical drive you want to be included in the mirrored pair. If the logicel drive you want to. 

use is not inthe list, verify that ts capacity is greater than cr equalto the capacity of the primary logical drive. 

NOTE Primary and secondary logical drives are NOT required to heve equi RAD vels. 


IMPORTANT: Secondary logical drives are READ-ONLY. Any host that has been mapped to a logical drive wil 
no longer have write access to t orce it becomes a secondary logcal drive in a mirrored pair. However, any 
defined mappings wil remain and ary mapped host wil be abie to write to he logical drivei tis ever 
promoted to a primary role or the miror relatonshipis removed. 


Logeal Drive Name Cepacty(GB) RADLevel  Worrnvwae eme. 
Ma E 560.02.6.60.0017:035c:00.01.00.15:43.840:35 
m2 x 560.02.6:60.0017:44:00.02.00-19.43.8d.075t 
N24 x 560.02.36:80.0017:435c:00.00.001243.8c:28. 
22 x :560.02.6:60.0017:044:00.02.00-18:43.8c:155. 
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图 17.20 远程 设备 上 的 卷 列表 


8] 选择 模式 ， 如 图 17.21 所 示 。 

9] 设置 同步 的 优先 级 ， 如 图 17.22 所 示 。 

10] 输入 “yes” 以 便 确 认 操 作 ， 如 图 17.23 所 示 。 

111 完成 后 提示 如 图 17.24 所 示 的 对 话 框 。 

121 用 同样 的 方法 作 另外 一 个 确认 提示 ， 如 图 17.25 所 示 。 
131 完成 后 ， 监 控 主 站 点 磁盘 阵列 的 变化 ， 如 图 17.26 所 示 。 
141 监控 备份 站 点 磁盘 阵列 的 变化 ， 如 图 17.27 所 示 。 
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[epatis a wrte consistency aroun? 


Set the way in which you want writes to the remote storage subsysten acknowledged to the host system thet sent the 


Wo request. 


Synchronous mode offers the best chance of ful data recovery from the remote secondary storage subsystem in a 
disaster at the expense of host IO performance and is the preferred mode of operation. 


Asynchronous mode offers faster host UO performance but does not guarantee that data was successfully writento 
Ihe secondary logical rive before indicating a successful wre to the host system. 
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The Remote Mirror was successful created. 


Do you want to create another Remote Mirror using another 
logical drive on this storage subsystem? 
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1726 镜像 后 卷 图 标的 变化 
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17.23 ”确认 


=Æ DS4500 4 GDPPrim - Completed... 圆 


The remote logica drive mirror has been created. Urtithe 
Synchronization process is compitec, the primary logcal drive 
wn spisy a Mrror Data Synchronization n Progress status. o 
monitor tre eyncirorization progress, highigH the prinary logical 
dive of the mirrored pair and select the Logical Drive==Properties 
menuoption. 


= DS4500_7_GDPSoc - IBM TotalStorage DS4000/PAStT St 


= BEBEHHDCOOUQUUU ai 


1727 备份 站 点 图 标的 变化 


€l/s5 ses—k x 


主 站 上 右 击 原 盘 /属性 可 以 查看 镜像 的 完成 情况 ， 如 图 17.28 所 示 。 
备份 站 方法 相同 ， 如 图 17.29 所 示 。 


加 DS4500 4_GDPPrim - Logical Drive Pro... R] 


500 7 GDPSec - Logical Drive Pr... [X] 


图 17.28 镜像 状态 窗口 B2» 备份 站 镜像 状态 窗口 


17.2.6 小 结 


纵 观 以 上 三 种 数据 同步 的 方式 ， 可 以 发 现 。 

第 一 种 方式 数据 经 过 的 路 径 最 长 ， 同 步 实 时 性 最 差 . 但 是 也 最 廉价 。 

第 二 种 方式 数据 经 过 的 路 径 适 中 ， 数 据 同步 实时 性 强 ， 但 是 对 后 端 链 路 要 求 比 第 一 种 
高 ， 不 适合 大 量 数据 同步 。 

第 三 种 方式 ， 数 据 经 过 的 路 径 最 短 ， 对 服务 器 性 能 没有 影响 ， 但 是 仍然 不 适合 在 远 距 
离 低速 链 路 的 环境 下 运行 ， 而 且 还 不 能 保证 数据 对 应 用 程序 的 可 用 性 ， 因 为 存储 设备 与 应 
用 程序 之 间 还 有 操作 系统 这 一 层 ， 操 作 系 统 有 自己 的 缓存 机 制 ， 如 果 存储 设备 上 的 数据 同 
步 引擎 没有 与 操作 系统 配合 良好 的 话 ， 很 有 可 能 造成 数据 的 不 一 臻 性， 这样 会 影响 到 应 用 
程序 ， 甚 至 使 应 用 程序 崩溃 。 

主 站 点 发 生 故 障 之 后 ， 备 份 站 点 的 存储 设备 会 感知 到 ， 然 后 强行 接管 主 站 点 的 工作 ， 
断 开 同 步 连接 ， 备 份 站 点 成 为 当前 的 主 站 点 ， 接 受 应 用 程序 的 读 写 操作 ， 并 记录 自从 断 开 
连接 之 后 发 生变 化 的 数据 块 。 待 探测 到 主 站 点 恢复 正常 之 后 (或 者 手动 重新 配置 同步 ), 备份 
站 点 先 将 变化 的 数据 块 复制 回 原来 的 主 站 点 ， 复 制 完成 后 ， 原 来 的 主 站 点 再 次 接管 回 主角 
色 ， 成 为 当前 的 主 站 点 ， 接 受 应 用 程序 的 读 写 操作 。 


17.3 ” 容 灾 中 数据 的 同步 复制 和 异步 复制 


17.3.1 B?» E BER 
下 面 来 分 析 一 个 实际 容 灾 案 例 中 数据 的 流动 情况 。 这 是 一 个 基于 存储 设备 的 自主 同步 
的 环境 ， 如 图 17.30 所 示 。 
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图 17.30_ 同 步 复制 的 过 程 
某 时 刻 ， 主 站 点 服务 器 向 磁盘 阵列 发 出 一 个 10 请 求 ， 向 某 个 LBA 写 和 数据。 待 写 


的 数据 已 经 进入 了 磁盘 阵列 的 缓存 中 ， 但 是 此 时 磁盘 阵列 控制 器 ， 不 会 给 服务 器 
的 SAN 网 络 适配器 驱动 程序 发 送 写 入 成 功 的 应 答 , 所 以 发 起 这 个 10 的 应 用 程序 也 
不 会 得 到 写 入 成 功 的 应 答 。 

主 站 点 磁盘 阵列 将 变化 的 数据 ， 从 缓存 中 写 入 LUN A 中 (根据 控制 器 策略 ， 写 和 一 
股 会 有 延迟 ) 。 与 此 同时 ， 主 站 点 的 数据 同步 引擎 获知 到 了 这 个 变化 ， 立 即将 变化 
的 数据 块 从 缓存 中 直接 通过 SAN 交换 机 发 往 备份 站 点 的 磁盘 阵列 上 的 缓存 中 。 
备份 站 点 磁盘 阵列 上 运行 的 数据 同步 引擎 接收 端 成 功 的 接收 到 数据 块 之 后 ， 会 在 
底层 FC 协议 隐 式 的 发 送 一 个 ACK 应 答 ， 或 者 通过 上 层 显示 的 发 送 给 主 站 点 一 个 
应 答 。 

主 站 点 接收 到 这 个 应 答 之 后 ， 立 即 向 服务 器 发 送 一 个 FC 协议 的 隐 式 ACK ER, 
这 样 , 服务 器 上 的 FC HBA 驱动 程序 便 会 探测 到 发 送 成 功 , 从 而 一 层 层 向 操作 系统 
的 更 上 层 发 送 成 功 信号 。 最 终 应 用 程序 会 得 到 这 个 成 功 的 信号 。 


如 果 按 照 上 述 方式 进行 ， 即 如 果 备 份 站 点 的 磁盘 阵列 由 于 某 种 原因 迟 迟 未 收 到 数据 ， 
则 不 会 发 送 应 答 信 号 ， 那 么 主 站 点 的 磁盘 阵列 控制 器 也 就 不 会 给 服务 器 发 送 写 入 成 功 的 信 
号 ， 这 样 服务 器 上 的 应 用 程序 就 会 处 于 等 待 状态 ， 造 成 应 用 程序 等 待 ， 从 而 连接 应 用 程序 
的 客户 端 也 得 不 到 响应 。 如 果 应 用 程序 使 用 的 是 同步 10， 则 其 相关 的 进程 或 者 线程 就 会 被 


挂 起 。 这 种 现象 也 叫做 Wait, IO 等 待 ， 意 思 就 是 向 存储 设备 发 起 一 个 10 而 迟 迟 接收 不 


到 写 入 成 功 的 应 答 信号 。 如 果 连 接 两 个 站 点 之 间 的 网 络 链 路 出 现 拥 塞 、 故 障 ， 便 会 发 生 10 


Wait. 


上 述 的 数据 复制 方式 ， 就 叫做 同步 复制 ， 因 为 主 站 点 必须 等 待 备份 站 点 的 成 功 信号 ， 
两 边 保持 严格 的 同步 ， 步 调 一 致 ， 一 荣 俱 荣 ， 一 损 俱 损 。 
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再 来 看 另外 一 种 实现 方式 ， 如 图 17.31 Bros 
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Bs 异步 复制 的 过 程 

11 某 时 刻 , 主 站 点 服务 器 向 磁盘 阵列 发 出 一 个 10 请 求 ， 向 某 个 LBA 写 入 数据 。 待 写 
的 数据 已 经 进入 了 磁盘 阵列 的 缓存 中 ,但 是 此 时 磁盘 阵列 控制 器 不 会 给 服务 器 的 
SAN 网 络 适配器 驱动 程序 发 送 写 入 成 功 的 应 答 ， 所 以 发 起 这 个 10 的 应 用 程序 也 不 
会 得 到 写 入 成 功 的 应 答 。 

2】 主 站 点 磁盘 阵列 控制 器 根据 策略 ， 如 果 设 置 为 Write Back 模式 ， 则 在 第 一 步 之 后 
立即 向 服务 器 发 送 FC 协议 的 底层 应 答 。 如 果 设 置 为 Write Through 模式 ， 则 先 将 
数据 写 入 LUN A， 然后 再 向 服务 器 应 答 。 

3] 主 站 点 磁盘 阵列 将 这 份 数据 通过 SAN 网 络 发 送 给 备份 站 点 的 磁盘 阵列 缓存 中 。 

4] 备份 站 点 磁盘 阵列 成 功 接收 后 ， 返 回 成 功 信号 。 

如 果 按 照 上 述 方式 进行 ， 即 ， 主 站 点 磁盘 阵列 只 要 接收 到 服务 器 写 入 的 数据 ， 就 立即 
向 服务 器 返回 成 功 信 号 ， 这 样 应 用 程序 不 需要 等 待 ， 数 据 同步 动作 不 会 影响 应 用 程序 的 响 
应 时 间 。 向 服务 器 发 送 变 化 的 数据 ， 可 以 在 稍 后 进行 ， 而 不 必 严 格 同步 。 这 种 数据 复制 的 
方式 就 叫做 异步 复制 。 也 就 是 说 两 边 步 调 无 须 一 致 ， 保 证 重要 的 事情 先 完成 ， 不 重要 的 稍 
后 再 说 。 一 旦 遇 到 网 络 连接 阻塞 或 者 中 断 ， 只 要 服务 器 还 能 访问 本 地 的 磁盘 阵列 ， 那 么 应 
用 就 不 会 受 丝毫 影响 ， 本 地 磁盘 阵列 会 记录 自从 网 络 断 开 之 后 ， 本 地 卷 上 所 有 发 生变 化 的 
数据 块 的 位 置 ， 待 网 络 恢复 之 后 ， 本 地 磁盘 阵列 会 根据 这 些 记录 ， 将 发 生变 化 的 数据 块 继 
续 复 制 到 远程 备份 磁盘 阵列 。 

有 得 必 有 失 。 异 步 复 制 保证 了 服务 器 应 用 程序 的 响应 速度 ， 然 而 付出 了 代价 ， 这 个 代 
价 就 是 牺牲 了 主 站 点 和 备份 站 点 数据 的 严格 一 致 。 主 站 点 的 数据 和 备份 站 点 的 数据 会 有 一 
个 间隙 (GAP])， 也 就 是 未 被 成 功 复制 到 远 端 而 积压 在 本 地 的 数据 。 此 时 如 果 一 
发 生 ， 这 部 分 数据 将 永久 丢失 。 而 同步 复制 方式 下 ， 没 有 间隙 ， 如 果 主 站 点 故障 发 生 了 ， 
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点 的 数据 就 是 主 站 点 发 生 故 障 那个 时 刻 的 严格 数据 镜像 ， 不 会 有 数据 丢失 。 同 样 ， 


制 的 代价 ， 就 是 牺牲 了 服务 器 的 应 用 程序 响应 时 间 。 


THR 
HB 灾 系 统 设计 的 时 候 ， 一 定 要 考虑 这 一 点 ， 要 明白 用 户 是 愿意 牺牲 数据 


安全 性 来 换取 高 响应 时 间 ， 还 是 愿意 牺牲 响应 时 间 来 换取 数据 的 安全 性 。 


前 很 多 设备 广 商都 有 折 中 的 解决 方案 ， 比 如 在 网 络 正常 的 情况 下 ， 实 现 同步 复制 ， 


一 旦 检测 到 网 络 连接 超时 ， 则 转 为 异步 复制 ， 待 网 络 正常 后 ， 再 转 为 同步 复制 。 


IT 
必须 要 


件 ， 发 生 故 障 后 ， 在 备份 站 点 服务 器 上 安装 配置 这 些 应 用 程序 呢 ? 
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17.4 生产 者 的 容 灾 


系统 的 生产 者 ， 也 就 是 各 种 服务 器 上 运行 的 应 用 程序 。 毫 无 疑问 ， 主 站 点 发 生 故 障 ， 
在 备 站 点 重新 运行 这 些 应 用 程序 。 我 们 是 否 可 以 在 备份 站 点 预备 应 用 程序 的 安装 文 


么 做 虽然 可 行 ， 但 是 一 些 较为 复杂 的 应 用 程序 ， 安 装 和 配置 要 花费 大 量 的 时 间 ， 比 
企业 REP 系统 的 安装 ， 可 能 需要 一 天 的 时 间 ， 再 加 上 不 可 预料 的 因素 ， 耗 时 可 能 更 
果 没 有 预先 安装 配置 好 这 些 应 用 程序 ， 未 雨 绸 缘 ， 则 事故 发 生 的 时 候 ， 企 业 就 需要 


忍受 停机 所 带 来 的 损失 了 。 


17.4.1 


生产 者 容 灾 概述 


我 们 必须 将 应 用 程序 在 备份 站 点 预先 安装 并 且 配 置 好 ， 但 是 不 能 让 它们 处 于 工作 状态 ， 
应 当时 刻 保证 同一 时 刻 只 有 一 个 站 点 的 生产 者 在 生产 ， 因 为 IT 系统 生产 出 来 的 产品 是 具有 


一 致 性 


继续 生 
一 时 刻 ， 


态 , 一 
第 
围 ， ps 


fi. E 


连接 ; 如 果 是 基于 Internet 的 VPN 连接 ， 虽 然 可 以 获得 高 带宽 /价格 比 , 但 是 延迟 无 法 保证 


最 小 ， 


类 似 HACMP、MSCS 这 种 HA 软件 ， 都 是 使 用 共享 存储 的 方式 来 作用 的 ， 即 HA 系统 中 
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司 步 过 来 的 数据 ， 做 到 这 一 点 ， 
且 检 测 到 主 站 点 应 用 程序 故障 ， 则 备份 站 点 应 用 程序 立即 启动 ， 开 始 生产 。 


的 数据 ， 而 且 数据 是 有 时 效 的 ， 具 有 上 下 文联 系 的 。IT 生产 是 一 个 连续 的 数据 处 理 
一 旦 中 途 产 生 数据 不 一 致 性 ， 就 需要 恢复 数据 到 某 个 一 致 的 时 刻 ， 然后 从 这 个 时 刻 
产 。 而 不 像 实物 生产 那样 ， 产 品 是 一 件 件 的 物品 ， 都 具有 相同 的 属性 。 所 以 保证 同 
整个 IT 系统 只 有 一 个 站 点 的 生产 者 处 理 同一 份 数据 ， 这 一 点 非常 重要 。 

而 ， 既 要 求 两 个 站 点 同一 时 刻 只 能 有 一 个 站 点 的 生产 者 处 理 一 份 数 据 ， 又 要 求 当 生 
发 生 事 故 的 时 候 ， 备 份 站 点 的 生产 者 立即 启动 ， 接 着 处 理 备份 站 点 经 过 主 站 点 数据 
需要 让 备份 站 点 的 应 用 程序 感知 到 主 站 点 应 用 程序 的 状 


16 章 曾 经 说 过 高 可 用 性 群集 ， 而 在 容 灾 技术 领域 中 ， 和 群集 的 范围 扩大 到 了 很 远 的 范 
份 站 点 与 主 站 点 可 能 不 在 同一 机 房 中 而 在 相隔 很 远 的 两 座 建筑 物 里 ， 甚 至 两 个 城市 


中 。 这 样 ， 备 份 应 用 程序 就 要 跨越 很 远 的 距离 与 主 应 用 程序 通信 来 交换 状态 。 由 于 应 用 程 
序 运 行 状态 数据 ， 相 对 于 其 处 理 的 数据 来 说 ， 数 据 量 是 很 小 的 ， 所 以 即使 是 跨越 广域网 通 


不 必 担 心 延 迟 太 大 。 ATEM EMO 点 的 前 端 网 络 ， 则 最 好 使 用 专线 


除非 购买 电信 部 门 提供 的 QOS 服务 。 


€l/s5 sees—XK X 


的 所 有 节点 ， 共 享 同一 份 物理 存储 ， 不 管 某 时 刻 由 谁 来 操作 处 理 这 些 数 据 ， 最 终 的 数据 只 
有 一 份 ， 而 且 是 一 致 的 、 具 有 上 下 文 逻 辑 关 系 的 。 而 远程 异地 容 灾 系 统 中 ， 数 据 在 主 站 点 
和 备份 站 点 各 有 一 份 ， 而 且 必 须 保 证 两 边 数据 的 同步 。 
生产 的 时 候 ， 必 须 以 一 边 数据 为 准 ， 另 一 边 与 之 同步 ， 绝 对 不 能 发 生 两 边 同 时 进行 生 
产 的 情况 ， 除 非 两 边 生 产 者 处 理 的 是 两 份 逻辑 上 无 任何 关联 的 数据 。 所 以 ， 远 程 容 灾 系统 
所 要 关注 的 有 两 个 重要 因素 ， 即 生产 者 和 生产 资料 。 只 要 生产 资料 在 主 站 和 备 站 完全 同步 ， 
那么 就 可 以 逻辑 上 认为 ， 数 据 只 有 一 份 ， 备 站 的 数据 是 主 站 的 镜像 ， 平 时 虚无 强 旨 不 可 用 ， 
但 是 一 旦 主 站 发 生 故 障 ， 备 站 的 镜像 立即 成 为 实 实在 在 可 用 的 数据 ， 同 时 ， 生 产 者 在 备 站 
启动 生产 ， 处 理 数据 。 这 就 是 异地 容 灾 。 

然而 ,传统 的 基于 共享 存储 模式 的 HA 软件 ,不 适用 于 异地 容 灾 系统 ， 因 为 共享 存储 模 
式 的 HA 软件 ， 是 基于 资源 切换 为 基础 的 ， 它 把 各 个 组 件 都 看 成 是 资源 ， 比 如 应 用 程序 、IP 
地 址 、 主 机 名 、 应 用 所 要 访问 的 存储 卷 等 , 发 生 故 障 时 , 备份 机 HA 软件 检测 到 对 方 的 故障 ， 
然后 强行 将 这 些 资源 迁移 到 本 地 ， 比如 ,在 备份 机 修改 相应 网 卡 的 IP 地址 ， 并 发 出 ARP 广 
播 来 刷新 所 有 本 广 域 内 的 客户 端 以 及 本 地 网 关 设 备 所 保存 的 ARP 映射 记录 ， 以 让 所 有 网 络 
上 的 终端 获知 此 IP 对 应 的 新 MAC 地 址 , 修改 主机 名 映射 文件 (Host 文件 ), 挂 载 共享 存储 设 
备 上 的 卷 ， 最 后 启动 备份 应 用 系统 。 
应 用 系统 可 以 访问 已 经 强行 挂 载 的 共享 卷 而 存 取 数 据 ， 客 户 端 可 以 继续 使 用 原来 的 IP 
地 址 来 访问 服务 器 上 运行 的 应 用 程序 ， 因 为 这 个 IP 已 经 由 故障 的 计算 机 转移 到 了 备份 计算 
机 ， 这 样 ， 生 产 就 可 以 继续 进行 了 。 要 保证 生产 者 在 切换 之 后 生产 可 以 继续 ， 则 必须 先 保 
证 生产 者 所 依赖 的 所 有 条 件 已 经 切换 成 功 ， 这 些 条 件 包括 TP 地 址 ( 非 必须 ] 和 卷 等 。 

1. 本 地 容 灾 系统 中 的 两 种 存储 模式 

本 地 HA 系统 中 ,多 个 节点 如 果 共 同 拥 有 同一 个 或 者 同 儿 个 卷 , 但 是 同一 时 刻 只 有 活动 
季 点 才 挂 载 该 卷 进行 10 读 写 ， 这 种 模式 就 叫做 共享 存储 模式 ， 即 HA 系统 中 的 每 个 节点 都 
拥有 同一 份 存储 卷 ， 只 不 过 不 活动 的 节点 不 对 其 进行 挂 载 并 10。 
如 果 HA 系统 中 每 个 节点 都 有 自己 独占 的 存储 卷 , 这 些 卷 除了 拥有 者 可 以 读 写 之 外 , 任 
何 情况 下 ， 其 他 节点 都 不 能 读 写 ， 数 据 的 共享 是 通过 同步 复制 技术 同步 到 所 有 节点 上 的 存 
储 卷 中 的 。 这 种 方式 就 叫做 Share-Nothing 模式 ， 即 HA 系统 中 的 所 有 节点 之 间 不 共享 任 
何 东 西 ， 所 有 元 素 都 是 独 享 的 ， 甚 至 网 络 地 址 都 是 各 用 各 的 。 数 据 存 在 多 份 ， 每 个 节点 一 
份 ， 节 点 之 间 通 过 同步 复制 技术 来 同步 数据 ， 某 节点 发 生 故 障 之 后 ， 这 个 节点 对 应 的 备份 
节点 直接 启动 应 用 程序 ， 由 于 之 前 数据 已 经 在 所 有 节点 上 同步 ， 所 以 此 时 数据 是 完整 一 至 
的 。 由 于 Share-Nothing 模式 下 ， 不 存在 任何 的 “接管 ”， 所 以 此 时 客户 端 需要 感知 到 服务 


端 群 集 的 这 种 切换 动作 ， 并 通过 客户 端 手动 或 者 自动 切换 配置 以 便 连接 新 服务 器 。 表 17.3 
对 比 了 HA 的 两 种 存储 模式 
表 17.3 ”HA 群集 中 两 种 存储 模式 的 对 比 


数据 本 身 是 否 容 灾 
软 硬 件 成 本 
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大 话 存储 


网 络 存储 系统 原理 精 解 与 最 佳 实践 


Share-Nothing 


前 端 网 络 资源 耗费 高 
管理 难度 低 
维护 数据 是 否 需 要 停机 不 需要 
实现 复杂 程度 低 

是 否 需 要 第 三 方 软件 f 
故障 因素 数量 2 个 
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数据 本 身 是 否 容 灾 

共享 存储 模式 下 ， 容 灾 系 统 的 各 个 节点 共享 同一 份 数据 。 如 果 这 份 数据 发 生 损坏 ， 
则 必须 用 备份 镜像 加 以 还 原 ， 而 且 需 要 承受 停机 带 来 的 损失 。 而 Share-Nothing 模 
式 下 ， 系 统 中 每 个 节点 都 有 自己 的 数据 拷贝 ， 如 果 其 中 一 份 数据 被 破坏 ， 系 统 可 


以 切换 到 另外 的 节点 ， 不 影响 应 用 ， 不 需要 停机 ， 被 损坏 的 数据 可 以 在 任何 时 候 
加 以 还 原 修复 ， 并 且 修复 后 的 节点 可 以 再 次 加 入 容 灾 系 统 。 
软 硬 件 成 本 


共享 存储 模式 下 ， 由 于 各 个 节点 需要 共享 一 份 存储 数据 ， 所 以 需要 外 接 的 磁盘 阵 
列 系统 ， 而 且 为 了 保证 数据 访问 速度 ， 外 接 存储 系统 必须 自身 实现 RAD 机 制 ， 主 
机 上 也 需要 安装 连接 盘 阵 的 适配器 。 这 样 就 增加 了 整个 系统 的 成 本 。Share-Nothing 
模式 下 ， 各 个 节点 自身 保存 各 自 的 数据 ， 而 不 必 使 用 外 接 存 储 系统 。 另 外 ， 共 享 
存储 模式 还 需要 额外 的 HA 软件 及 额外 的 成 本 ， 而 Share-Nothing 模式 不 需要 。 

前 端 网 络 资源 耗费 

共享 存储 模式 下 ， 各 个 节点 之 间 交 互信 息 一 般 通 过 以 太 网 络 ， 而 存储 数据 通过 后 
端 存储 网 络 。 由 于 各 个 节点 在 前 端 网 络 上 只 传输 控制 数据 ， 所 以 对 前 端 以 太 网 络 
资源 的 耗费 相对 较 低 。 而 Share-Nothing 模式 下 ， 由 于 各 个 节点 之 间 的 数据 同步 完 
全 通过 前 端 网 络 ， 所 以 对 前 端 网 络 资源 耗费 相对 较 高 ， 适 合 局 域 网 环境 。 

管理 难度 

共享 存储 模式 下 ， 不 但 需要 管理 节点 间 的 交互 配置 ， 还 需要 管理 外 部 存储 系统 ， 
增加 了 管理 难度 。 Share-Nothing 模式 下 , 只 需要 管理 各 个 节点 见 的 交互 配置 即 可 。 
是 否 需要 停机 
共享 存储 模式 下 ， 由 于 需要 将 数据 从 单机 环境 转移 到 共享 存储 环境 供 其 他 节点 使 
用 ,往往 需要 停机 来 保证 数据 的 一 致 性 。 而 Share-Nothing 模式 下 ,数据 同步 是 动 
态 的 ， 不 需要 停机 。 

实现 复杂 程度 

首先 ， 共 享 存储 模式 下 ， 有 三 种 基本 元 素 : 节点 、 节 点 间 交 互 、 共 享 数据 ， 而 
Share-Nothing 模式 下 ， 只 有 两 种 元 素 : 节点 、 节 点 间 交 互 。 其 次 ， 如 果 使 用 共享 
存储 模式 做 容 灾 ， 需 要 将 数据 移动 到 共享 存储 上 ， 增 加 额外 的 工作 量 、 时 间 和 不 
可 控 因 素 。 


第 17 章 是 公 移 山 一 大话 数据 容 灾 


o 是否 需 要 第 三 方 软件 

共享 存储 模式 下 ， 备 份 节点 需要 通过 第 三 方 软件 来 监控 主 节点 的 状态 ， 在 发 生 故 
障 的 时 候 主动 接管 资源 ， 比 如 各 种 操作 系统 提供 的 HA 软件 (HACMP、MSCS、SUN 
Cluster 等 )。Share-Nothing 模式 下 不 需要 任何 第 三 方 软件 参与 。 
e ”故障 因素 数量 
共享 存储 模式 下 ， 如 果 出 现 容 灾 系 统 本 身 的 功能 故障 ， 需 要 在 操作 系统 、 应 用 程 
F, HA 软件 三 个 方面 排查 故障 。Share-Nothing 模式 下 ， 只 需要 在 操作 系统 、 应 
用 程序 二 者 之 间 排 查 故障 。 

2. 异地 容 灾 系 统 中 的 IP 切换 

在 异地 容 灾 系统 中 ， 主 服务 器 和 备份 服务 器 不 太 可 能 在 一 个 广播 域 中 ， 一 般 都 是 通过 
网 关 设 备 来 转发 之 间 通 信 的 IP 包 , 所 以 不 可 能 用 所 谓 资 源 切换 的 方式 来 切换 IP 地 址 。 如果 
想 对 客户 端 透明 ， 即 客户 端 可 以 无 须 感知 故障 的 发 生 ， 继 续 使 用 原来 的 TP 地 址 来 连接 备份 
服务 器 ， 那 么 就 需要 在 网 络 路 由 设备 上 做 文章 了 ， 动 态 修改 路 由 器 上 的 路 由 表 ， 将 IP 包 路 
由 到 备份 站 点 而 不 是 主 站 点 。 如 果 客 户 利用 域名 来 访问 服务 器 ， 那 么 也 可 以 直接 在 DNS i 
备 上 修改 IP 指向 记录 来 完成 这 个 功能 。 

最 方便 而 且 普遍 的 做 法 是 ， 让 所 有 客户 机 利用 主机 名 来 连接 服务 器 ， 这 样 ， 主 站 点 故 
障 后 , 通知 所 有 客户 端 修改 它们 的 host 文件 即 可 将 原来 的 主机 名 映射 到 新 的 IP 地 址 而 不 用 
重启 计算 机 。 这 方面 ， 异 地 容 灾 系统 中 的 HA 软件 几乎 发 挥 不 了 作用 。 

3. 异地 容 灾 系 统 中 的 卷 切换 

异地 容 灾 系统 中 在 主 站 点 和 备 站 点 各 有 卷 ， 两 个 卷 之 间 可 以 通过 前 端 网 络 同步 ， 或 者 
通过 后 端 网 络 同步 。 主 站 点 后 ， 备 份 服务 器 上 的 HA 软件 检测 到 主 服务 器 通信 失败 ， 便 会 感 
知 故障 发 生 ， 然 后 通过 某 种 方式 ， 断 开 主 卷 和 备份 卷 的 同步 关系 (如果 不 断 开 ， 则 卷 会 被 锁 
定 而 不 可 访问 )， 如 果 同 步 引擎 是 运行 在 存储 设备 上 的 ， 那 么 除非 HA 软件 可 以 操控 运行 在 
存储 设备 上 的 同步 引擎 ， 否 则 必须 由 系统 管理 员 手 动 利 用 存储 设备 的 配置 工具 来 断 开 同 步 
关系 。 同 步 关 系 断 开 后 ， 本 地 的 卷 才能 被 访问 ， 这 样 ，HA 软件 才能 在 备份 机 上 调用 操作 系 
统 的 相关 功能 来 挂 载 这 个 卷 。 

如 果 同 步 引 擎 本 身 就 是 由 运行 在 主机 和 备份 机 上 的 HA 软件 提供 的 , 那么 就 可 以 实现 在 
检测 到 通信 失败 之 后 , 由 HA 软件 本 身 来 自动 断 开 同步 关系 , 然后 在 备份 机 上 挂 载 对 应 的 卷 。 

4. 异地 容 灾 系 统 中 的 应 用 切换 

应 用 , 也 就 是 生产 者 的 切换 , 是 所 有 HA 容 灾 系 统 中 的 在 故障 发 生 后 所 执行 的 最 后 一 步 
动作 。 与 共享 存储 模式 的 HA 容 灾 相同 ， 异 地 容 灾 中 的 应 用 切换 ， 也 是 由 备份 机 的 HA 软件 
来 执行 脚本 ， 或 者 通过 其 他 功能 调用 相关 应 用 的 接口 来 启动 备份 机 的 应 用 。 
比如 ， 对 于 DB2 数据 库 来 说 ， 启 动 数据 库 实例 所 使 用 的 命令 为 : db2start，HA 软件 只 
要 检测 到 主 站 点 故障 ， 只 要 在 备份 机 的 db2cmd 命令 行 方式 下 执行 这 条 命令 ， 便 可 使 备份 
机 的 DB2 数据 库 实例 启动 起 来 。 应 用 的 启动 必须 在 所 有 资源 成 功 切换 到 备份 机 后 发 生 ， 因 
为 应 用 启动 的 时 候 必然 会 读 取 卷 上 的 一 些 数 据 ， 如 果 卷 还 没有 被 挂 载 ， 应 用 启动 的 时 候 就 
会 报错 ， 比 如 : 找 不 到 数据 文件 。 
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5. Veritas Cluster Server 软件 介绍 


VCS(Veritas Cluster Server) HJ IEF VVR 的 配合 ， 而 实现 异地 容 灾 系 统 。 在 一 个 
CLUSTER 环境 中 ， 如 果 一 台 服 务 器 运行 多 个 应 用 ， 只 有 一 个 应 


出 现 故 障 时 ， 那 么 VCS 可 


以 只 将 该 应 用 切换 到 预先 定义 的 服务 器 上 ， 另 一 个 应 用 仍然 在 原来 的 服务 器 上 继续 运行 。 


VCS 将 其 


Web-Server， 要 保证 这 个 应 用 正常 运行 ，VCS 将 监视 存放 数据 


件 系统 、 网 卡 、IP 地 址 及 Web 服务 进程 。 既然 VCS 是 基于 应 
上 运行 的 多 个 应 用 可 以 切换 到 不 同 的 服务 器 上 。 


惫 视 的 应 用 当 作 一 组 资源 来 管理 ， 这 一 组 资源 定义 为 资源 组 (RG)。 例 如 


的 磁盘 组 ， 该 磁盘 组 上 的 文 


1 


的 高 可 用 软件 ， 一 台 服 务 器 


例如 ， 图 17.32 所 示 的 服务 器 A 运行 着 IIS 网 页 访问 服务 和 DB2 数据 库 服务 ， 服 务 器 B 


运行 着 FTP 服务 和 邮件 转发 服务 ， 服 务 器 C 


运行 着 NFS 服务 和 SMB 网 络 文件 系统 服务 。 CHER 

当 服 务 器 A 出 现 故 障 时 , 资源 组 RG-Web Y) sis ee 

换 到 服务 器 B 上 , 资源 组 RG-DB2 切换 到 服 Pi b^ 

务 器 C 上 。 当 然 条 件 是 它们 都 能 存 取 对 应 的 

应 用 数据 。 系 统管 理 员 制 定 合适 的 故障 条 | Bus. Bano 

件 ， 例 如 现场 完全 瘫痪 10 分 钟 或 某 个 应 用 BEEXTS SMDES; 

" 上 运行 半 小 时 。 当 这 种 情况 发 生 时 ， 可 以 [17.32 多 Actve 集群 

设 定 有 GCM(Global Cluster Manager) 自动 切 

换 应 用 ， 或 向 系统 管理 员 报警 ， 得 到 确认 后 ， 再 切换 应 用 。 无 论 应 用 切换 是 自动 还 是 需要 


确认 ， 两 个 场地 之 间 应 用 的 启动 过 程 均 无 须 人 工 干预 。 


17.4.2 案例 一 : 基于 Symantec 公司 的 应 用 容 灾 产品 VCS 


图 17.33 所 示 为 两 台 DB2 数据 库 服务 器 ， 下 面 要 将 其 配置 为 一 个 HA 双 机 热 备 系统 ， 
主机 硬件 或 者 应 用 程序 故障 之 后 ， 由 VCS 自动 检测 故障 ， 并 在 备份 机 上 重新 启动 各 种 环境 


以 及 应 用 程序 。 
以 太 网 交换 机 
虚拟 IP 
192.168.0.3 
虚拟 主机 名 
dbsrv 


192.168.0.1 | l'home/db2 


dbsrv1 “DBVolume | 
SAN 交 换 机 


磁盘 阵列 


图 17.32 两 台 服务 器 的 双 机 系统 


dbsrv2 
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主 服务 器 名 称 为 dbsvr1，IP 地 址 为 192.168.0.1， 备 份 服务 器 名 称 为 dbsvr2，IP 地 址 
为 192.168.0.2. 

台 计 算 机 操作 系统 都 是 Solaris 9, 利 用 Symantec 的 Storage foundation( 包 含 了 VxVM 
和 VxFS) 作 为 卷 和 文件 系统 管理 工具 。 

在 两 个 系统 中 分 别 安装 了 DB2 数据 库 程序 ， 而 数据 库 文件 存放 在 共享 磁盘 阵列 上 面 ， 
共享 卷 由 VxVM 对 底层 磁盘 进行 虚拟 化 而 生成 ,VxVM 先 将 操作 系统 底层 磁盘 ( 盘 阵 上 的 LUN) 
组 成 磁盘 组 ， 然 后 在 这 个 组 中 再 划分 卷 ， 这 就 和 RAD 卡 的 做 法 类 似 ， 只 不 过 VxVM 作用 在 
主机 操作 系统 层 ， 而 RAID 卡 作用 在 硬件 层 。 

本 例 所 生成 的 共享 磁盘 组 命名 为 DBDG， 只 包含 一 个 物理 磁盘 ， 设 备 名 为 cot0d0， 然 
后 划分 一 个 卷 ， 卷 名 DBVolume， 用 VxFS 格式 对 这 个 卷 进行 格式 化 ， 再 将 格式 化 好 的 卷 挂 
载 到 虚拟 目录 中 ， 本 例 将 其 挂 载 于 /home/db2 下 面 。 

对 卷 的 划分 和 格式 化 仅 需 在 一 台 计 算 机 上 配置 即 可 ， 配 置 完 后 ， 只 需要 将 这 个 卷 进行 
导出 操作 ， 另 一 台 计 算 机 就 可 以 导入 并 识别 出 这 个 卷 的 格式 ， 再 直接 挂 载 到 虚拟 目录 。 

为 了 对 客户 端 透明 ,我 们 用 一 个 虚拟 主机 名 和 虚拟 IP 作为 访问 DB2 数据 库 服 务 的 地 址 ， 
虚拟 主机 名 为 dbsvr， 虚 拟 IP 为 192.168.0.3. 

虚拟 IP. 不 是 一 个 神秘 的 东西 , 我们 知道 一 块 以 太 网 卡 可 以 有 多 个 IP 与 之 对 应 ， 如果 把 
192.168.0.3 这 个 IP 绑 定 到 dbsrvl 主机 的 网 卡 上 ， 那 么 dbsrv1 主机 就 同时 拥有 两 个 IP: 
192.168.0.1 和 192.168.0.3, 这 样 ,客户 端 用 ARP 协议 请 求 192.168.0.3 这 个 IP 地 址 对 应 的 
MAC 地 址 时 ，dbsrv1 这 台 主 机 便 会 应 答 ， 客 户 端 知道 192.168.0.3 这 个 地 址 的 MAC 地 址 
(dbsrv1 主机 网 卡 的 MAC 地 址 )， 就 可 以 建立 与 dbsrv1 主机 的 通信 。 

- 旦 dbsrv1 主机 发 生 故障 , 那么 dbsrv2 主机 上 的 VCS 软件 就 会 将 192.168.0.3 这 个 IP 
地 址 设置 到 dbsrv2 主机 的 网 卡 上 , 并 发 出 Free ARP 广播 , 将 新 的 IP 与 MAC 地 址 的 对 应 关 
系 通 告 到 网 络 上 的 其 他 终端 ， 客 户 机 再 次 连接 的 时 候 ， 就 会 建立 和 dbsrv2 主机 的 通信 ， 而 
客户 端 对 这 个 IP 的 拥有 者 是 dbsrv1 还 是 dbsrv2 丝毫 没有 察觉 ， 也 没有 必要 察觉 到 。 这 个 
切换 IP 的 动作 ， 也 是 VCS 将 虚拟 IP 作为 一 个 资源 来 切换 的 过 程 。 


T 


Storage Foundation 的 安装 过 程 这 里 就 不 做 描述 了 ， 本 例假 设 在 两 台 计 算 机 上 都 
TR .已 经 成 功 的 安装 Storage Foundation 组 件 了 。 


相关 配置 配置 过 程 
11 在 dbsrvl 主机 上 创建 供 DB2 数据 文件 使 用 的 共享 存储 ， 及 文件 系统 。 


# vxdg init DBDG cotodo \\ 创 建 磁 术 组 DBDG， 使 用 cotodo ix^ miik 

# vxassist -g DBDG make DBVolume 5g \\ 在 磁盘 组 上 创建 5GB 大 小 的 卷 DBVolume 
# mkfs -F vxfs -o largefiles /dev/vx/rdsk/DBDG/DBVolume \\ 将 卷 DBVolume 
格式 化 为 VxFs 文件 系统 

# mkdir /home/db2 \\ 创 建 挂 载 点 ， 将 用 于 DBVolume 卷 的 挂 载 

# mount -F vxfs /dev/vx/dsk/DBDG/DBVolume /home/db2 \\ 将 格式 化 好 的 卷 
DBVolume 挂 载 于 /home/db2 下 ， 这 样 就 可 以 通过 CD /home/db2 进入 这 个 目录 从 而 对 这 个 
卷 的 内 容 进 行 访问 了 。 
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2] 使 两 个 系统 可 以 通过 RSH 方式 互相 访问 ， 在 dbsrv1 上 面 做 如 下 操作 。 


# echo “dbsrv2 192 
4 echo “dbsrv2 db2inst1” >> $HOME/.rhosts \\ 使 得 对 方 主机 可 以 通过 RSH 以 


db2inst1 的 身份 登录 本 机 。Db2inst1 是 DB2 数据 库 所 必须 的 用 户 


.168.0.2” >> /etc/hosts \\ 将 对 方 加 入 自己 的 主机 列表 


# echo “dbsrv 192.168.0.3" >> /etc/hosts \\ 将 虚拟 主机 加 入 自己 的 主机 列表 


31 在 dbsrv2 上 面 做 类 型 的 操作 ， 将 dbsrv2 改 为 dbsrvi, IP 也 做 相应 的 改变 ， 虚 拟 
主机 IP 和 主机 名 不 变 。 
4) 在 两 台 计 算 机 上 分 别 执行 下 列 命令 ， 创 建 相同 的 用 户 组 。 
4 groupadd -g 999 db2iadmi \\ 创 建 DB2 实例 管理 组 ; 
# groupadd -g 998 db2fadmi \\ 创 建 DB2 fencing 管理 组 ; 
# groupadd -g 997 db2asgrp \\ 创 建 DB2 数据 库 管理 组 ; 
# useradd -g db2iadmi1 -u 1005 -d /home/db2 -m db2insti \\ 创 建 DB2 实例 


管理 用 户 


# useradd -g db2fadml -u 1006 -d /home/db2fencl -m db2fenci \\ 创 建 DB2 
fencing 管理 用 户 
# useradd -g db2asgrp -u 1007 -d /home/db2as -m db2as \\ 创 建 DB2 数据 库 


管理 员 账 户 


站 上述 用 户 组 或 者 用 户 的 ID 可 以 是 尚未 被 使 用 的 任意 数字 ， 但 一 定 要 保证 两 台 
计算 机 上 面 的 用 户 ID 是 一 致 的 ， 否 则 数据 库 切换 的 操作 会 失败 ; 数据 库 实例 
管理 员 的 账户 目录 要 存放 在 共享 盘 上 面 ， 也 就 是 /home/db2 目录 。 


5] 在 两 台 计 算 机 上 面 分 别 安装 DB2 数据 库 程序 。 
用 install 程序 来 安装 DB2, 然后 手动 创建 实例 和 数据 库 。 因 为 实例 目录 需要 放 到 共 
享 卷 上 ， 也 就 是 /home/db2 目录 。 

61 安装 完 DB2 程序 后 ， 分 别 在 两 台 计 算 机 安装 DB2 的 许可 证 。 


# /opt/IBM/db2/V8.1/adm/db21icm -a db2ese.lic 


7] 在 dbsrv1 上 面 创建 实例 (存放 到 共享 盘 ]。 


# cd /usr/opt/db2 08 01/instance 

4 ./db2icrt -u db2fencl db2insti \\ 创 建 一 个 名 为 db2insti 的 实例 ，DB2 会 将 实 
例 目录 存放 到 同名 的 用 户 名 目录 下 ， 也 就 是 dbinst1 用 户 的 主 目录 : home/DB2 ARF, M 
而 将 实例 目录 放 到 了 共享 卷 上 。 


8] 修改 DB2 节点 文件 /home/db2/sqllib/db2nodes.cfg， 将 原来 的 db2srv1 主机 名 修 
改 为 dbsrv 这 个 虚拟 主机 名 。 


0 dbsrv 0 


9] 创建 数据 库 testdb。 


# su - db2insti \\ 切 
\\ 启 动 数据 库 ; 

# db2 create database testdb \\ 创 建新 的 数据 库 tdastdb， 由 于 当前 用 户 是 
db2inst1， 所 以 testdb 
# db2 terminate 断 开 与 DB2 服务 后 端 处 理 进程 的 连接 ; 


4 db2start 


# db2stop 


NBapd 


换 数据 库 实例 管理 用 户 ; 


数据 库 被 创建 在 /home/db2 目录 下 ， 也 就 是 共享 卷 上 ; 


据 库 ; 


101 


111 


121 


13] 


14] 


151] 
161 
171 


18] 


191 
201 
211 


17.4.3 


图 17.34 是 两 个 站 点 容 灾 系 统 最 基本 的 结构 图 。 主 站 点 是 基于 三 个 节点 Cluster 的 多 个 


应 
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将 共享 盘 从 dbsrv1 H$ FÆ (H dbsrv1 执行 )。 

# umount /home/db2 HERUKA; 

# vxvol -g DBDG stopall \\ 将 DBDG 的 所 有 卷 停 止 活动 ; 

# vxdg deport DB2DB \\ 将 磁极 组 DBDG 导出 ， 以 便 在 其 他 计算 机 上 导入 并 挂 载 。 


将 共享 盘 挂 载 到 dbsrv2( 在 dbsrv2 执行 ) 


# vxdg import DBDG \\ 将 磁盘 组 DBDG FA; 
4 vxvol -g DBDG startall \\ 将 DBDG 的 所 有 卷 启动 ; 
# mount -F vxfs /dev/vx/dsk/DBDG/DBVolume /home/DB2  \\ 挂 载 文件 系统 ; 


在 dbsrv2 启动 原来 在 dbsrv1 创建 的 数据 库 testdb 


# su - db2inst1 
# db2start 
# db2 connect to testdb 


如 果 能 够 连接 成 功 ， 则 数据 库 双 机 配置 成 功 。 如 果 数 据 库 服 务 在 某 系 统 上 发 生 故 障 


后 ,会 被 VCS 切换 到 另外 一 台 计 算 机 并 运行 .下 面 配 置 自动 故障 检测 并 切换 的 功能 。 


拷贝 DB2 代理 配置 文件 到 VCS 的 配置 目录 。 

4 cp /etc/VRTSvcs/conf/Db2udbTypes.cf /etc/VRTSvcs/conf/config/ 
Db2udbTypes.cf 

打开 VCS 图 形 工具 。 

# /opt/VRTSvcs/bin/hagui \\ 将 运行 Vcs 图 形 化 配置 工具 


创建 服务 资源 组 (service group)， 并 命名 为 db2grp。 

依次 单 击 “ 文 件 ” 一 “导入 ”一 “确定 ”按钮 ， 导 入 DB2 代理 配置 文件 。 
在 db2grp 中 创建 六 个 资源 。 

磁盘 组 : 即 DBDG。 

X: DBVolume, 

挂 载 点 : /home/db2, 

网 卡 : 客户 端 所 连接 的 网 卡 (例如 bge0)。 

IP 地 址 : 选择 192.168.0.3 这 个 虚拟 IP 地 址 。 

e DB2 agent: 这 个 资源 会 监控 DB2 程序 在 群集 中 的 运行 情况 。 

为 这 六 个 资源 创建 依赖 关系 ( 右 击 资源 ， 选 择 link), 

IP 依赖 NIC 网 卡 的 工作 正常 ， 卷 的 存在 依赖 于 磁盘 组 的 状态 ， 文 件 系 统 依赖 卷 ， 
DB2 代理 的 状态 要 同时 依赖 于 IP 地 址 的 存在 和 文件 系统 的 存在 。 

右 击 db2grp 服务 组 ， 选 择 online, 让 db2 f£ dbsrv1 上 线 。 

右 击 db2 服务 组 ， 选 择 switch to, ik db2 切换 到 dbsrv2, 

如 果 切 换 正 常 ， 则 VCS 配置 成 功 。 


案例 二 : 基于 Symantec 公司 的 应 用 容 灾 产 品 VCS 


， 容 灾 站 点 同样 也 配置 成 一 个 三 节点 的 Cluster 系统 ， 它 们 配 了 同等 容量 的 存储 ， 并 具 
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有 数据 容错 功能 。 


务 ， 


A 上 运行 的 是 FTP 服务 程序 , 同时 安装 有 SAP 应 用 程序 , 但 是 SAP 应 用 程序 处 于 停止 
服务 器 B 上 运行 着 SMB 文件 共享 服务 ， 同 时 安装 有 DB2 数据 库 服 务 程序 ， 但 是 DB2 数据 

E 服 务 程序 平时 处 于 停止 状态 ， 服 务 器 C 上 安装 有 Web 服务 程序 和 邮件 转发 程序 ， 
停止 状态 。 


者 


备份 站 点 的 网 
写 入 后 端 磁盘 阵列 。 


E 站 点 服务 器 的 内 存 )， 经 过 前 端 以 太 网 交换 机 ， 传 送 到 网 关 设 备 ， 然 后 经 过 
关 设 备 ， 再 通过 前 端 以 太 网 交换 机 传送 到 备份 站 点 服务 器 内 存 ， 最 后 从 内 存 


网 交换 机 


服务 器 A 
FTP 服 务 
SAP 服 务 〔 备 用 ) 


服务 器 B 服务 器 C 
re | | wenna Car cime accus 
DB2 服 务 〔 备 用 ) BERRES (EE) 

^ 


SAN 交 换 机 


SAN 交 换 机 


磁盘 阵列 


B3 两 个 站 点 的 互 备 群集 


TREES] 


主 站 点 运行 的 是 Web 服务 、DB2 服务 ，SAP 企业 ERP 服务 以 及 邮件 转发 服务 的 关键 业 


完全 和 置 于 容 灾 系统 控制 之 下 ， 可 以 看 到 : 
o EURIA A ERI T Web 服务 程序 和 SAP 应 用 程序 ,而 且 二 者 皆 在 运行 
e ”服务 器 B 上 安装 了 邮件 转发 处 理 程 序 ， 以 及 SAP 应 用 程序 和 DB2 数据 库 程 

是 服务 器 B 上 的 SAP 和 DB2 程序 平时 都 处 于 停止 状态 ,只 有 邮件 转发 程序 在 
e ”服务 器 C 上 安装 了 DB2 数据 库 程 序 , 并 处 于 运行 状态 , 另外 还 安装 有 Web 有 

序 和 邮件 转发 程序 ， 但 是 平时 处 于 停止 状态 。 
备 站 点 的 业务 是 FTP 服务 、SMB 文件 共享 的 一 般 业 务 ， 不 做 容 灾 。 备 份 站 点 的 


y, fH 
运行 。 


民 务 程 


有 务 器 
状态 ; 


且 都 


如 图 17.34 所 示 , 图 中 最 长 的 箭头 指示 了 两 个 站 点 数据 同步 的 路 径 , 即 从 主 站 点 盘 阵 [或 


“ 域 网 到 达 


主 站 点 服务 器 之 间 的 稍 头 ， 表 示 一 旦 某 个 服务 器 ， 或 者 服务 器 上 的 某 个 应 用 发 4 


之 后 ， 资 源 组 的 切换 走向 。 
从 图 17.34 中 可 以 看 到 服务 器 B 和 服务 器 C 形成 了 一 个 互 备 的 系统 ， 即 服务 器 B 是 邮 
件 转发 程序 的 主 节点 ， 是 DB2 服务 的 备用 节点 ;而 服务 器 C 是 DB2 服务 程序 的 主 节点 ， 是 
邮件 转发 程序 的 备用 节点 。 
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7H Ei 


E 故 障 


第 {7 章 是 公 移 山 一 大 话 数据 容 灾 


7 因为 主 站 点 的 三 台 服 务 器 之 间 形 成 了 比较 复杂 的 互 备 关 系 ， 所 以 三 台 服 务 器 必 
Br 夭 能 识别 到 其 他 两 台 服 务 器 上 挂 载 的 卷 ， 但 是 备用 节点 不 应 当 挂 载 这 些 卷 ， 仅 
DE 当 对 方 应 用 或 者 整个 服务 器 故障 的 时 候 ， 才 能 在 备份 节点 上 挂 载 这 些 卷 。 


图 中 央 的 粗 箭头 ， 表 示 一 旦 主 站 点 发 生 了 大 故障 ， 诸 如 整个 机 房 被 损毁 等 ， 那 么 所 有 
主 站 点 的 应 用 ， 全 部 切换 到 备份 站 点 ， 并 且 备 站 点 点 的 节点 挂 载 备用 磁盘 阵列 上 的 所 有 卷 。 
Veritas 的 Storage Foundation 组 件 应 当 安 装 到 图 上 的 所 有 服务 器 中 ，VVM 模块 用 于 管理 所 
有 存储 卷 ，VVR 模块 用 于 同步 所 有 卷 的 数据 ，VCS 模块 用 于 检测 故障 并 且 切 换 应 用 。 整 个 
HA 系统 的 工作 过 程 如 下 。 
11 主 站 点 应 用 的 运行 过 程 中 ， 所 修改 的 数据 通过 所 有 主 站 点 服务 器 主机 都 安装 的 
VVR 软件 实时 地 复制 到 备 站 点 。 
2】 假设 某 时 刻 主 站 点 服务 器 上 的 SAP 应 用 发 生 故 障 , 比如 相关 服务 无 法 启动 , 则 VCS 
模块 检测 到 这 个 故障 之 后 ， 发 现 相 关 资 源 组 有 两 个 备用 节点 可 切换 : 主 站 点 的 服 
务 器 B 和 备 站 点 的 服务 器 A， 所 以 它 首先 检测 主 站 点 的 服务 器 B 是 否 可 用 ， 如 果 
可 用 ， 则 发 送 一 些 信息 通告 服务 器 B 上 的 VCS 模块 ， 准 备 切换 SAP 应 用 到 服务 器 
B， 服 务 器 B 确认 后 ，VCS 在 服务 器 A 上 首先 卸载 SAP 程序 所 存储 的 对 应 卷 ， 然 
后 通告 服务 器 B 印 载 成 功 ， 服 务 器 B 再 挂 载 这 些 卷 ， 并 且 接 管 SAP 服务 所 利用 的 
IP 地 址 ， 之 后 启动 SAP 服务 。 客 户 端 只 需要 重新 连接 一 下 便 可 。 
3] 某 时 刻 ， 主 站 点 机 房 供 电 系统 故障 ， 经 过 相关 人 员 的 检查 ， 恢 复 供电 大 概 需要 5 
小 时 。 而 UPS 系统 在 工作 两 小 时 之 后 因 电量 不 足 而 停止 ， 企 业 CIO 果断 决定 ， 在 
UPS 电量 耗 尽 之 前 ， 将 主 站 点 所 有 系统 手动 停机 以 免 因 为 突然 断 电 对 硬件 和 软件 
带 来 的 损害 。 此 时 备用 站 点 的 VCS 软件 检测 到 了 这 个 故障 ， 立 即 在 所 有 服务 器 上 
挂 载 已 经 经 过 数据 同步 的 卷 ， 然 后 启动 所 有 备份 应 用 系统 。 所 有 生产 均 恢 复 运 行 ， 
客户 端 经 过 修改 host 文件 或 者 修改 所 连接 的 TP 地 址 ,恢复 了 与 服务 器 的 连接 ,所 
有 生产 继续 运行 。 
4] 5 小 时 之 后 ， 主 站 点 机 房 供电 恢复 ，UPS 系统 充电 。 企 业 CIO 决定 ， 在 恢复 供电 1 
小 时 之 后 (确保 主 站 点 供电 恢复 正常 , 以 避免 不 必要 的 动荡 ), 切 回 所 有 应 用 到 主 站 
点 。 主 站 点 所 有 系统 开机 ，VCS 软件 会 检测 到 当前 的 应 用 已 经 全 部 运行 在 备份 站 
点 ， 所 以 不 会 在 主 站 点 服务 器 上 挂 载 卷 并 启动 应 用 。 与 此 同时 备用 站 点 的 VVR 软 
件 重新 建立 了 与 主 站 点 VVR 软件 的 通信 ,并 互相 交互 数据 ,备份 站 点 的 VVR 检测 
到 了 主 站 点 相关 卷 上 的 数据 是 落后 的 ， 因 为 备用 站 点 在 主 站 点 故障 期 间 ， 已 经 生 
产 运行 了 五 小 时 ， 此 间 数 据 已 经 有 所 变化 。VVR 立即 将 变化 的 数据 复制 到 主 站 点 
的 相关 卷 。 重 新 同步 后 ， 备 用 站 点 的 VCS 停止 应 用 、 印 载 卷 ， 主 站 点 的 VCS HR 
卷 ， 启 动 应 用 ， 所 有 状态 恢复 如 初 ， 客 户 端 重新 连接 即 可 连接 到 主 站 点 的 服务 
器 上 。 
本 次 故障 造成 的 停机 时 间 很 得， 没有 对 生产 造成 太 大 影响 ， 同 时 也 很 好 的 考验 了 这 个 
企业 的 异地 容 灾 系统 的 功能 。 如 果 没 有 容 灾 系 统 ， 这 个 企业 就 要 忍受 长 时 间 停 机 带 来 的 
损失 。 
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附录 ”五 百年 后 一 一 


系统 架构 将 走向 何方 


附 图 1 为 一 台大 型 机 设备 的 一 角 ， 底 部 的 24 个 10 插 板 不 但 占据 了 庞大 的 空间 ， 也 耗 
费 了 太 多 的 电力 和 人 力 。 


aS 
N 


Tm 
MN 3 


UE: 大 型 主机 一 角 


目前 ，Intel 已 经 将 CPU 与 GPU 的 整合 计划 提 上 上 日程， 将 在 下 一 代 CPU 中 整合 入 显示 
芯片 ， 整 合 的 GPU 性 能 可 满足 一 般 的 3D 应 用 。 不 但 如 此 ， 内 存 控制 器 也 将 从 北桥 迁移 到 


CPU 世上 


SUN 公司 正在 到 


TM 


处 宣传 他 们 的 Server on chip( 芯 片上 的 服务 器 ) 理 念 。 要 将 10Gb/s W 


率 的 以 太 网 适配器 集成 到 CPU 芯片 中 。 将 多 个 CPU 核心 集成 到 一 个 芯片 里 。 


FE, 


个 很 小 


的 空间 ， 此 时 


定律 依然 在 
简单 。 而 网 络 技术 的 


实现 它 的 预言 ， 电 路 集成 度 越 来 越 高 ， 外 部 单个 系统 架构 也 将 越 来 越 
发 展 必 将 进入 一 个 超级 网 络 化 世界 。 固 态 存储 将 很 高 的 容量 集成 在 一 
| 还 需要 SAN 么 ? 那 时 候 的 SAN 将 是 另 一 种 含义 ， 即 System Area 


Network。 即 联网 的 是 系统 总 线 ， 而 不 是 后 端 存储 。 
分 还 是 合 ? 目前 的 存储 界 ， 有 人 在 做 整合 ， 有 人 在 做 分 高 。 分 分 合 合 ， 真 的 不 知道 谁 


能 最 终 主 
要 数据 或 者 写 数据 ， 
在 一 个 标准 4U BUR 


E 宁 存储 界 。 


SAN 的 出 现 ， 本 来 是 为 了 集中 存储 ， 服 务 器 只 管 向 SAN 上 的 盘 阵 系统 
而 不 必 在 自己 机 箱 内 部 插 满 硬盘 。 但 是 SUN 公司 将 24TB 的 容量 集成 


民 务 器 中 ， 让 服务 器 不 用 再 连接 SAN， 不 需要 购买 FC 适 配 卡 ， 不 需要 


FC 交换 机 ， 不 需要 连接 光纤 。 前 者 为 “分 ”而 来 ， 后 者 为 “ 合 ”而 去 。 目 前 IT 系统 所 处 的 
阶段 正 是 一 个 混沌 阶段 ， 各 种 迹象 均 表明 ， 系 统 正在 走向 整合 收缩 阶段 。 


大 话 存储 


网 络 存 储 系统 原理 精 解 与 最 佳 实践 


一 些 厂家 的 服务 器 正体 现 了 这 种 趋势 ， 单 个 4U 高 度 机 柜 中 可 以 存储 几 十 TB 的 容量 


(SATA 硬盘 )， 如 果 用 体积 和 耗 电 更 低 的 固态 存储 硬盘 ， 其 存储 密度 将 会 更 高 。 到 撰写 本 章 


时 ， 单 块 SSD 的 读 速率 已 经 超过 了 200MB/s， 写 速率 也 超过 了 160MB/s， 随 机 I0 的 IOPS 
远 远 超 越 机 械 人 硬盘 。 


将 被 


趋势 。SUN 公司 的 BlackBox 将 企业 的 YT 中 心 放 入 一 个 集装箱 中 ， 其 中 包含 了 电源 、 机 架 、 


网 络 
果 某 


手掌 
自身 
的 就 
模式 
作 高 


楼 房 
收 机 


建筑 
代 人 


知识 
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的 是 : 


质量 。 


随 着 芯片 存储 技术 的 发 展 ， 也 许 在 一 张 电路 板 上 就 可 以 达到 100TB 的 存储 容量 ， 那 么 
密度 还 需要 用 光缆 连接 存储 设备 来 获得 数据 流 么 ? 那 时 候 的 SAN 就 像 并 行 SCSI 一 样 ， 
由 弃 。 没 有 人 愿意 连接 光缆 到 外 部 存储 设备 。 

SUN 公司 的 BlackBox 计划 ， 也 体现 了 “整合 ”的 思想 ， 它 试图 将 IT 系统 引 向 收缩 的 


设施 、 服 务 器 主机 、 存 储 设备 、 监 控 设 备 、 散 热 冷 却 等 所 有 数据 中 心机 房 的 部 件 。 如 
个 企业 打算 迁移 到 另外 的 地 区 ， 则 直接 将 这 个 集装箱 运往 目的 地 即 可 。 
我 们 可 以 乐观 地 认为 ， 随 着 芯片 整合 度 的 飞速 提高 ， 将 来 企业 的 IT 中 心 ， 将 会 是 一 块 
大 小 的 芯片 ， 可 以 随身 携带 。 
IT 领域 中 永恒 的 话题 ， 终 归还 是 网 络 技术 。 甚 至 在 五 百年 后 ， 网 络 技术 可 能 成 为 人 类 
赖 以 发 展 的 基本 。 探 索 和 交流 ， 乃 是 人 类 世界 和 计算 机 世界 的 永恒 ， 而 交流 必须 使 用 
是 网 络 技术 。 网 络 的 例子 还 有 很 多 ， 比 如 计算 机 总 线 网 络 、 交 通 网 络 、 电 话 网 络 …… 
四 络 技术 将 走向 何方 ?至少 可 以 肯定 的 是 更 高 速 、 更 稳定 、 传 输 距 离 更 远 。 可 以 推测 
Jo edi dct HUGE Hei. 从 2005 年 开始 , 笔记 本 电脑 已 经 普遍 安装 了 802.11n 
K WiFi 无 线 网 卡 ， 其 理论 速度 可 以 达到 300Mb/s。 有 很 多 疯狂 WiFi 的 DIY 玩家 ， 制 
增益 天 线 以 及 高 灵敏 度 发 射 机 ， 将 WiFi 信号 发 射 到 几 十 公里 外 而 仍然 保持 良好 的 信号 
由 此 也 就 没有 理由 怀疑 ， 在 不 久 的 将 来 ， 以 太 网 HUB 及 交换 机 也 将 被 淘汰 。 新 建 的 
不 需要 将 昂贵 的 铜 制 双 绞 线 埋 入 墙 中 ， 而 只 需要 在 走廊 上 安装 一 个 WiFi 信号 发 射 / 接 
如 可 。 

然而 ， 人 们 总 是 有 一 种 复古 的 倾向 ， 新 思想 替代 旧 思 想 终归 需要 一 段 时 间 。 目 前 的 新 
仍然 要 埋 置 双 绞 线 到 墙 内 。 

FE 2 所 示 的 凌乱 布线 ， 在 无 线 时 代 ， 将 被 认为 是 地 球 上 最 不 可 思议 的 照片 。 就 像 现 
看 原始 人 钻 木 取 火 一 样 。 


| 附 图 | 2 凌乱 的 布线 


随 着 人 类 对 世界 规则 的 不 断 探 索 ， 或 许可 以 发 现 像 量 子 一 样 更 多 新 奇 的 东西 ， 在 这 些 
的 基础 上 ， 可 以 发 明 出 更 多 的 新 奇 技术 。 世 界 将 会 不 断 的 改变 它 的 模样 。 
本 书 就 此 告 一 段落 。 再 见 ! 


随感 
至 心 竟 力 两 周年 ， 
谁 解 个 中 苦 与 甜 ? 
古今 多 少 兴 喜事 ， 
成 败 从 来 在 眼前 。 

一 一 教 青云 


友 ， 非 常 感谢 您 能 看 完 此 书 。 如 果 您 对 这 本 书 有 何 建议 和 意见 。 可 以 发 送 邮件 
@sinacom， 我 当 万 分 感谢 ! 

还 可 以 到 本 人 博客 留言 或 者 邮件 讨论 本 书 相关 的 内 容 。 

最 后 ， 实 在 想不到 拿 什 么 送 给 各 位 以 表 谢 意 ， 就 送 各 位 一 首 诗 ， 也 送 给 我 自己 。 
书 山 有 路 勤 为 径 ， 

学 海 无 涯 苦 作 舟 。 

主机 网 络 和 存储 ， 

做 得 IT de HE 


到 


书 中 角色 最 后 归宿 : 

七 星 大 侠 : 开 天 鼻 祖 ， 光 芒 永 照 。 

IKRA: 百年 求 道 ， 一 生 和 孜孜 不 倦 、 德 高 望 重 、 惹 壶 济世 、 鞠 躺 尽 阅 、 死 而 后 已 。 
微软 老道 ;承蒙 张 真人 人 赏识， 不负众望， 成 为 武林 盟主 。 

无 忌 : 革命 之 后 ， 到 处 求 仙 访 道 ， 不 知 其 踪 。 

AT: 把 持 武林 交通 系统 ， 依 然 向 最 后 一 块 阵地 不 断 进攻 。 

FC 大 侠 : 把 持 着 那 最 后 一 片 领土 ， 与 老 T 对 峙 到 底 。 


冬瓜 头 
大 连 七 贤 岭 


